使用返回向量的函数与ave()函数

Question

使用返回向量的函数与ave()函数

3

我想知道将分位数列添加到数据集中的最佳方法是什么。我考虑使用ave()函数，例如ave(iris$Sepal.Length, iris$Species, FUN=quantile) - 但在这种情况下，ave()会合并quantile()返回的值（在这种情况下，每个子集返回5个值）并将它们裁剪到iris的长度...感谢您提前的建议！

- Vasily A

2个回答

3

使用 data.table 包：

library(data.table)
dt <- data.table(iris)
dt[, paste0("q", 25*(0:4)) := as.list(quantile(Sepal.Length)), by="Species"]

- Josh O'Brien

最后一行似乎有一个错别字（缺少括号？）- 这导致我出现了错误 Error in \[.data.frame`(dt, , `:=`(paste0("q", 25 * (0:4)), as.list(quantile(Sepal.Length))), : unused argument(s) (by = "Species")`。 - Vasily A

糟糕，是我的错：错误是由于在RStudio中查看表格引起的。感谢提供另一种解决方案！ - Vasily A

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ben Bolker · Accepted Answer

这个普遍的话题在SO上有很多问题，推荐使用ave()、aggregate()、plyr()、reshape2::cast或data.table等方法，具体取决于个人偏好、可读性、紧凑性、灵活性和速度... 这里有一个简单的解决方案，使用aggregate()，似乎可以实现你想要的功能:

(aa <- aggregate(Sepal.Length~Species,data=iris,quantile))

##      Species Sepal.Length.0% Sepal.Length.25% Sepal.Length.50% Sepal.Length.75%
## 1     setosa           4.300            4.800            5.000            5.200
## 2 versicolor           4.900            5.600            5.900            6.300
## 3  virginica           4.900            6.225            6.500            6.900
##   Sepal.Length.100%
## 1             5.800
## 2             7.000
## 3             7.900

编辑: 根据评论重新阅读，这不是您想要的: 您需要摘要值在每行中被复制，而不仅仅是每组一次。

也许

merge(iris,aa,by="Species")

虽然这会得到一个有点奇怪的数据框（最后一列实际上是一个矩阵）。

这有点神奇，但是

merge(iris,with(aa,data.frame(Species,Sepal.Length)))

更好的方法是使用 tidyr，它可以更好地解析由 aggregate() 返回的奇怪数据框（名称仍然有点奇怪）。