数据框排序时出现奇怪行为

9

我有一个数据框,想按第五列(“Distance”)排序。当我尝试使用

df.order <- df[order(df[, 5]), ]

我总是收到以下错误消息。
Error in order(df[, 5]) : unimplemented type 'list' in 'orderVector1'`

我不知道为什么R把我的数据框视为列表。运行is.data.frame(df)返回TRUE。我必须承认is.list(df)也返回TRUE。有没有可能强制我的数据框只是一个数据框而不是一个列表? 感谢你的帮助。

structure(list(ID = list(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), 
               Latitude = list(50.7368, 50.7368, 50.7368, 50.7369, 50.7369, 50.737, 50.737, 50.7371, 50.7371, 50.7371), 
               Longitude = list(6.0873, 6.0873, 6.0873, 6.0872, 6.0872, 6.0872, 6.0872, 6.0872, 6.0872, 6.0872), 
               Elevation = list(269.26, 268.99, 268.73, 268.69, 268.14, 267.87, 267.61, 267.31, 267.21, 267.02), 
               Distance = list(119.4396, 119.4396, 119.4396, 121.199, 121.199, 117.5658, 117.5658, 114.9003, 114.9003, 114.9003), 
               RxPower = list(-52.6695443922406, -52.269130891243, -52.9735258244422, -52.2116571930007, -51.7784534281727, -52.7703448813654, -51.6558862949081, -52.2892907635308, -51.8322993596551, -52.4971436682333)), 
          .Names = c("ID", "Latitude", "Longitude", "Elevation", "Distance", "RxPower"),
          row.names = c(NA, 10L), class = "data.frame")

2
你是如何创建这样的数据框的?它非常不寻常。 - Roland
@Roland 我使用另一个函数创建了数据框,该函数使用lapply将单个列输出为列表以避免for循环。也许我应该改用sapply来解决它。 - Yann
不,你应该在lapply的输出上使用do.call(cbind, ...)或类似的东西。 - Roland
4个回答

10

您的数据框中包含列表而非向量。您可以使用as.data.frameunlist将此数据框转换为“经典”格式:

df2 <- as.data.frame(lapply(df, unlist))

现在,新的数据框可以按预期排序:

df2[order(df2[, 5]), ]

我曾经认为向量和列表是相同的。 - Augustin Riedinger
1
@AugustinRiedinger 从技术上讲,它们并不相同。列表是向量的一种特殊类型。通常,“向量”一词指的是原子向量,即“逻辑”,“整数”,“数字”,“复杂”,“字符”或“原始”模式的向量。 - Sven Hohenstein
向量也会强制转换数据为一个通用类型(例如,如果您有数字和字符元素,则所有内容都将是字符)。列表将保持正确的类型,因此您应该避免使用向量。 - Denis

3
我用一个小例子阐述了问题:

我已经举了一个小例子来说明问题:

df <- structure(list(ID = c(1, 2, 3, 4), 
          Latitude = c(50.7368, 50.7368, 50.7368, 50.7369), 
          Longitude = c(6.0873, 6.0873, 6.0873, 6.0872), 
          Elevation = c(269.26, 268.99, 268.73, 268.69), 
          Distance = c(119.4396, 119.4396, 119.4396, 121.199), 
          RxPower = c(-52.6695443922406, -52.269130891243, -52.9735258244422, 
                         -52.2116571930007)), 
          .Names = c("ID", "Latitude", "Longitude", "Elevation", "Distance", "RxPower"), 
          row.names = c(NA, 4L), class = "data.frame")

请注意,list只出现了一次。所有的值都被c(.)包装,而不是list(.)。这就是为什么在您的数据上执行sapply(df, class)会导致所有列的类别都是list的原因。
现在,
> sapply(df, classs)
#       ID  Latitude Longitude Elevation  Distance   RxPower 
# "numeric" "numeric" "numeric" "numeric" "numeric" "numeric" 

现在order已经生效:
> df[order(df[,4]), ]  
#   ID Latitude Longitude Elevation Distance   RxPower
# 4  4  50.7369    6.0872    268.69 121.1990 -52.21166
# 3  3  50.7368    6.0873    268.73 119.4396 -52.97353
# 2  2  50.7368    6.0873    268.99 119.4396 -52.26913
# 1  1  50.7368    6.0873    269.26 119.4396 -52.66954

你说得没错。我应该将数据框的所有列转换为向量,而不是列表。谢谢。 - Yann

1

这将把列表的数据框转换为矩阵:

mat <- sapply(df,unlist)

现在您可以订购它。
mat[order(mat[,5]),]

如果所有列都是同一类型,例如数字,则矩阵通常更可取,因为矩阵上的操作比数据框快。但是,您可以使用as.data.frame(mat)将其转换为数据框。
顺便说一句,数据框是一种特殊类型的列表,因此对于每个数据框,is.list返回TRUE

矩阵的想法不错。谢谢。 - Yann

0

遇到了同样的问题。这个方法对我有用(也许能帮助其他遇到同样问题并偶然发现这个页面的人)。

我的结构如下:

lst <- list(row1 = list(col1="A",col2=1,col3="!"), row2 = list(col1="B",col2=2,col3="@"))
> lst
$row1
$row1$col1
[1] "A"

$row1$col2
[1] 1

$row1$col3
[1] "!"


$row2
$row2$col1
[1] "B"

$row2$col2
[1] 2

$row2$col3
[1] "@"

我正在做:

df <- as.data.frame(do.call(rbind, lst))

当我尝试使用df[order(df$col1),]时,我一直遇到与您相同的错误。结果发现我需要这样做:

df <- do.call(rbind.data.frame, lst)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接