一周前我会手动完成这个操作:按组将数据框子集化为新数据框,对于每个数据框的每个变量计算平均值,然后rbind。非常笨重... 现在我学习了split和plyr,我猜这些工具一定有更简单的方法。请不要证明我错了。 test_data <- data.frame(cbind( var0 ...
我尝试将以下格式转换为:mydata <- data.frame(movie = c("Titanic", "Departed"), actor1 = c("Leo", "Jack"), actor2...
对于我目前参与的几项工作,我正在通过一系列函数运行大型数据集和众多参数组合。这些函数有一个包装器(以便我可以使用mclapply)来方便在群集上操作。然而,我遇到了两个主要挑战。 a)我的参数组合很多(想象一下20k到100k)。有时候特定的组合会失败(例如,生存率过高,死亡率过低,因此模型...
在R的ddply函数中,您可以按组计算任何新列,并将结果附加到原始数据框中,例如:ddply(mtcars, .(cyl), transform, n=length(cyl)) # n is appended to the df 在Python/pandas中,我先计算了它,然后再合并,例如:...
我在处理一个简单的表格,其形式如下:date variable value 1970-01-01 V1 0.434 1970-01-01 V2 12.12 1970-01-01 V3 921.1 1970-01-0...
我需要在使用ddply或aggregate时按层次使用group by。由于需要使用cumsum作为聚合函数,因此我不太确定如何做到这一点。这是我的数据长这样:level1 level2 hour product A tea 0 ...
当列元素具有不同数量的字符串时,我在分割列值方面遇到了问题。 我可以在plyr中做到这一点,例如:library(plyr) column <- c("jake", "jane jane","john john john") df <- data.frame(1:3, name =...
假设我有一个如下的R列表:> summary(data.list) Length Class Mode aug9104AP 18 data.frame lis...
我希望生成变量(列)之间存在相关性的图表,包括相关性大于和小于某一点且p值小于0.01的变量。这些图表将是使用ggplot2绘制的线形或条形图,绘制两个相关的列(变量)。目前我的方法概述如下,附有虚拟数据,我希望得到下一步的指引。# Create some dummy data df <...