数据框架中出现错误:无效的多字节字符串,元素4693。

3
我是一名有用的助手,可以为您翻译文本。
我正在Mac版本10.11.1上运行R Studio。当通过doBy包运行以下代码时:
ATT_SUM <- summaryBy(STUENR_MEM + STUENR_ABS ~ STUDENT_NUMBER + GRADE_LEVEL + Current.School + ENROLL_STATUS + LAST_NAME + FIRST_NAME + ENTRYDATE + EXITDATE + Enrolled.School + STU_MEM + STU_ABS,
                     data = Att_14, FUN = function(x) { c(Sum = sum(x))})

我收到了以下信息:
Error in data.frame(..., check.names = FALSE) : invalid multibyte string, element 4693

我正在尝试按STUENR_MEM和STUENR_ABS变量折叠或汇总我的数据。我的数据框中的许多观察结果具有相同变量的多个条目。我想要对STUENR_MEM和STUENR_ABS列中的数据进行求和,以创建一个总会员和总缺席列 - 因此将有一个单独的列与该观察结果对应的这两个变量。

列名:

1 "Current.School" "GRADE_LEVEL" "ENROLL_STATUS" "STUDENT_NUMBER" "LAST_NAME" "FIRST_NAME"
[7] "STU_MEM" "STU_ABS" "STUENR_MEM" "STUENR_ABS" "ENTRYDATE" "EXITDATE"
[13] "Enrolled.School"

我已经搜索了答案,但没有找到。

1个回答

0

看起来你的数据文件或某个列存在编码问题。尝试在导入csv/txt文件时使用fileEncoding参数。将类型调整为数据源的特定编码:UTF-8Windows-1252latin1等。

Att_14 <- read.csv("DataSource.csv", stringsAsFactors=FALSE, fileEncoding="UTF-8")

此外,还要考虑 R 的 aggregate() 函数,它可以根据多个列进行汇总和分组:
ATT_SUM <- aggregate(cbind(STUENR_MEM, STUENR_ABS) ~ STUDENT_NUMBER + GRADE_LEVEL +
                     Current.School + ENROLL_STATUS + LAST_NAME + FIRST_NAME + 
                     ENTRYDATE + EXITDATE + Enrolled.School + STU_MEM + STU_ABS, 
                     data = Att_14, FUN = sum)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接