19得票5回答
将聚合后的值重新加入原始数据框。

我经常使用的设计模式之一是对数据框执行“group by”或“split, apply, combine(SAC)”,然后将聚合数据再次加入到原始数据中。例如,在具有许多州和县的数据框中计算每个县与州平均值的偏差时,这非常有用。我的聚合计算很少只是一个简单的平均值,但这是一个很好的例子。我经常...

19得票2回答
将数据框中的每一行转换为列表项

我有一些关于数据框处理的操作,希望使用 mclapply() 或其他类似的 lapply() 函数加速。对我来说,最简单的方法之一是将数据框的每一行作为列表中的一个小数据框。我可以使用 plyr 很容易地实现这一点:df <- data.frame( a=rnorm(1e4), b=rn...

19得票4回答
更快的计算频率和从长格式转换为宽格式的方法

我试图获得两个变量"week"和"id"每种组合水平的计数。我希望结果将"id"作为行,"week"作为列,计数作为值。 到目前为止,我尝试了以下示例(尝试了很多其他方法,包括添加一个虚拟变量= 1,然后在其上使用 fun.aggregate = sum ):library(plyr) dd...

19得票3回答
理解ddply错误消息 - 缺少参数“by”,没有默认值

我正在尝试弄清楚为什么在使用ddply时会收到错误消息。 示例数据:data<-data.frame(area=rep(c("VA","OC","ES"),each=4), sex=rep(c("Male","Female"),each=2,times=3), year...

19得票3回答
将列名从函数传递到ddply

我希望能够在调用ddply函数时发送一列名称。以下是一个ddply的示例调用:ddply(myData, .(MyGrouping), summarise, count=sum(myColumnName)) 如果我在另一个函数中使用了 ddply,那么是否可能将它包装起来,以便我可以将任意值作...

19得票3回答
按索引将向量分段并对每个分段执行操作的惯用R代码

我正在尝试找到在 R 中按某个索引向量分割数字向量、找到该分区中所有数字的总和,然后将每个单独的条目除以该分区总和的惯用方式。换句话说,如果我从这里开始:df <- data.frame(x = c(1,2,3,4,5,6), index = c('a', 'a', 'b', 'b', ...

18得票3回答
在R中压缩列表

作为指南,我更喜欢使用lapply或*ply(来自plyr)在列表的元素上应用函数,而不是明确地迭代它们。但是,当我需要一次处理多个列表时,这种方法就不起作用了。当函数需要多个参数时,通常我会使用循环。 我想知道是否有更干净、仍然具有功能性质的构造方法。一种可能的方法是定义一个类似于Pyth...

18得票2回答
两个数据框架按行相关性

我有两个数据框,每个数据框有5列和100行。id price1 price2 price3 price4 price5 1 11.22 25.33 66.47 53.76 77.42 2 ...

18得票2回答
当我在加载`dplyr`之后加载`plyr`时,为什么在使用`group_by`时`summarize`或`mutate`无法正常工作?

注意:本问题的标题已被编辑,以使其成为处理plyr函数遮盖其dplyr对应函数问题的规范问题。问题的其余部分保持不变。 假设我有以下数据:dfx <- data.frame( group = c(rep('A', 8), rep('B', 15), rep('C', 6)), ...

18得票6回答
使用lm()对象列表进行预测

我有一些数据,我经常运行回归分析。每个“块”数据都会配合不同的回归方程。例如每个州可能有一个不同的函数来解释因变量。这似乎是一个典型的“拆分-应用-组合”问题,因此我正在使用 plyr 包。我可以轻松创建 lm() 对象的列表,这很有效。但我还不太确定如何稍后使用这些对象来预测另一个数据框中的...