数据框排序时出现奇怪行为

Question

数据框排序时出现奇怪行为

9

我有一个数据框，想按第五列（“Distance”）排序。当我尝试使用

df.order <- df[order(df[, 5]), ]

我总是收到以下错误消息。

Error in order(df[, 5]) : unimplemented type 'list' in 'orderVector1'`

我不知道为什么R把我的数据框视为列表。运行is.data.frame(df)返回TRUE。我必须承认is.list(df)也返回TRUE。有没有可能强制我的数据框只是一个数据框而不是一个列表？感谢你的帮助。

structure(list(ID = list(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), 
               Latitude = list(50.7368, 50.7368, 50.7368, 50.7369, 50.7369, 50.737, 50.737, 50.7371, 50.7371, 50.7371), 
               Longitude = list(6.0873, 6.0873, 6.0873, 6.0872, 6.0872, 6.0872, 6.0872, 6.0872, 6.0872, 6.0872), 
               Elevation = list(269.26, 268.99, 268.73, 268.69, 268.14, 267.87, 267.61, 267.31, 267.21, 267.02), 
               Distance = list(119.4396, 119.4396, 119.4396, 121.199, 121.199, 117.5658, 117.5658, 114.9003, 114.9003, 114.9003), 
               RxPower = list(-52.6695443922406, -52.269130891243, -52.9735258244422, -52.2116571930007, -51.7784534281727, -52.7703448813654, -51.6558862949081, -52.2892907635308, -51.8322993596551, -52.4971436682333)), 
          .Names = c("ID", "Latitude", "Longitude", "Elevation", "Distance", "RxPower"),
          row.names = c(NA, 10L), class = "data.frame")

- Yann

2

你是如何创建这样的数据框的？它非常不寻常。 - Roland

@Roland 我使用另一个函数创建了数据框，该函数使用lapply将单个列输出为列表以避免for循环。也许我应该改用sapply来解决它。 - Yann

不，你应该在lapply的输出上使用do.call(cbind, ...)或类似的东西。 - Roland

4个回答

3

我用一个小例子阐述了问题:

我已经举了一个小例子来说明问题:

df <- structure(list(ID = c(1, 2, 3, 4), 
          Latitude = c(50.7368, 50.7368, 50.7368, 50.7369), 
          Longitude = c(6.0873, 6.0873, 6.0873, 6.0872), 
          Elevation = c(269.26, 268.99, 268.73, 268.69), 
          Distance = c(119.4396, 119.4396, 119.4396, 121.199), 
          RxPower = c(-52.6695443922406, -52.269130891243, -52.9735258244422, 
                         -52.2116571930007)), 
          .Names = c("ID", "Latitude", "Longitude", "Elevation", "Distance", "RxPower"), 
          row.names = c(NA, 4L), class = "data.frame")

请注意，list只出现了一次。所有的值都被c(.)包装，而不是list(.)。这就是为什么在您的数据上执行sapply(df, class)会导致所有列的类别都是list的原因。

现在，

> sapply(df, classs)
#       ID  Latitude Longitude Elevation  Distance   RxPower 
# "numeric" "numeric" "numeric" "numeric" "numeric" "numeric"

现在order已经生效：

> df[order(df[,4]), ]  
#   ID Latitude Longitude Elevation Distance   RxPower
# 4  4  50.7369    6.0872    268.69 121.1990 -52.21166
# 3  3  50.7368    6.0873    268.73 119.4396 -52.97353
# 2  2  50.7368    6.0873    268.99 119.4396 -52.26913
# 1  1  50.7368    6.0873    269.26 119.4396 -52.66954

- Arun

你说得没错。我应该将数据框的所有列转换为向量，而不是列表。谢谢。 - Yann

1

这将把列表的数据框转换为矩阵：

mat <- sapply(df,unlist)

现在您可以订购它。

mat[order(mat[,5]),]

如果所有列都是同一类型，例如数字，则矩阵通常更可取，因为矩阵上的操作比数据框快。但是，您可以使用as.data.frame(mat)将其转换为数据框。

顺便说一句，数据框是一种特殊类型的列表，因此对于每个数据框，is.list返回TRUE。

- Roland

矩阵的想法不错。谢谢。 - Yann

0

遇到了同样的问题。这个方法对我有用（也许能帮助其他遇到同样问题并偶然发现这个页面的人）。

我的结构如下：

lst <- list(row1 = list(col1="A",col2=1,col3="!"), row2 = list(col1="B",col2=2,col3="@"))
> lst
$row1
$row1$col1
[1] "A"

$row1$col2
[1] 1

$row1$col3
[1] "!"


$row2
$row2$col1
[1] "B"

$row2$col2
[1] 2

$row2$col3
[1] "@"

我正在做：

df <- as.data.frame(do.call(rbind, lst))

当我尝试使用df[order(df$col1),]时，我一直遇到与您相同的错误。结果发现我需要这样做：

df <- do.call(rbind.data.frame, lst)

- Denis

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sven Hohenstein · Accepted Answer

10

您的数据框中包含列表而非向量。您可以使用as.data.frame和unlist将此数据框转换为“经典”格式：

df2 <- as.data.frame(lapply(df, unlist))

现在，新的数据框可以按预期排序：

df2[order(df2[, 5]), ]

- Sven Hohenstein

我曾经认为向量和列表是相同的。 - Augustin Riedinger

1

@AugustinRiedinger 从技术上讲，它们并不相同。列表是向量的一种特殊类型。通常，“向量”一词指的是原子向量，即“逻辑”，“整数”，“数字”，“复杂”，“字符”或“原始”模式的向量。 - Sven Hohenstein

向量也会强制转换数据为一个通用类型（例如，如果您有数字和字符元素，则所有内容都将是字符）。列表将保持正确的类型，因此您应该避免使用向量。 - Denis