56得票8回答
在给定的列上聚合数据框,并显示另一列。

我有一个 R 数据框的形式如下:> head(data) Group Score Info 1 1 1 a 2 1 2 b 3 1 3 c 4 2 4 d 5 2 3 e 6...

50得票6回答
使用多个度量列将数据从长格式转换为宽格式

我在尝试将数据从长格式转换为宽格式时遇到了困难,特别是当我有多个要导入的度量变量时,最优雅和灵活的方法是什么,我还不确定。 例如,下面是一个简单的长格式数据框。其中ID表示主题,TIME是时间变量,X和Y是对ID在TIME上进行的测量:> my.df <- data.frame(...

41得票3回答
有没有一个好的替代品可以在dplyr中取代plyr::rbind.fill?

对于 tidyverse 用户,dplyr 是处理数据的新方法。 对于试图避免使用旧版包 plyr 的用户,dplyr 中的等效函数是什么以使用 rbind.fill?

40得票5回答
函数内使用ddply出现"Object not found"错误

这真的挑战了我的R代码调试能力。 我想使用ddply()将相同的函数应用于按顺序命名的不同列;例如,a、b、c。为了做到这一点,我打算重复传递列名作为字符串,并使用eval(parse(text=ColName))来允许函数引用它。我从另一个答案中学到了这个技巧。 这很有效,直到我将ddp...

39得票6回答
加速“group by”操作

我有一个模拟程序,其中有一个巨大的聚合和组合步骤。我使用plyr的ddply()函数原型化了这个过程,对于我大部分需求来说效果很好。但是我需要这个聚合步骤更快,因为我需要运行10K个模拟。我已经在并行扩展模拟,但如果这一步更快,我可以大大减少所需节点数。 以下是我尝试做的事情的合理简化: ...

39得票8回答
ddply错误的含义:'names'属性[9]的长度必须与向量[1]的长度相同。

我正在学习《黑客机器学习》,但卡在了这一行:from.weight <- ddply(priority.train, .(From.EMail), summarise, Freq = length(Subject)) 这将生成以下错误:Error in attributes(out) &...

38得票4回答
缺失时间步骤添加行的最快方法是什么?

我有一个数据集中的列,其中时间段 (Time) 是从a到b的整数。对于任何给定的组,有时可能会缺少时间段。我想用 NA 来填充这些行。下面是一个(几千个中的一个)组的示例数据。structure(list(Id = c(1, 1, 1, 1), Time = c(1, 2, 4, 5), Va...

35得票1回答
在R中对数据框的每一行执行plyr操作

我喜欢plyr语法。每当我不得不使用*apply()命令之一时,我就会踢狗并连续3天狂欢。因此,为了我的狗和我的肝,有没有简洁的语法可以在数据框的每一行上执行ddply操作? 这里有一个适用于简单情况的示例: x <- rnorm(10) y <- rnorm(10) df &...

35得票4回答
基于列值的行总和

我想对具有同一列中相同值的行进行求和: > df <- data.frame("1"=c("a","b","a","c","c"), "2"=c(1,5,3,6,2), "3"=c(3,3,4,5,2)) > df X1 X2 X3 1 a 1 3 2 b 5...

32得票6回答
数据框列表中元素的平均值是什么?

假设我有一个数据框列表(行和列相同)。dat1 <- as.data.frame(matrix(rnorm(25), ncol=5)) dat2 <- as.data.frame(matrix(rnorm(25), ncol=5)) dat3 <- as.data.frame...