13得票6回答
对于每个组,汇总数据框中所有变量的平均值(使用ddply?split?)。

一周前我会手动完成这个操作:按组将数据框子集化为新数据框,对于每个数据框的每个变量计算平均值,然后rbind。非常笨重... 现在我学习了split和plyr,我猜这些工具一定有更简单的方法。请不要证明我错了。 test_data <- data.frame(cbind( var0 ...

13得票5回答
将多个分类变量转换为二元响应变量

我尝试将以下格式转换为:mydata <- data.frame(movie = c("Titanic", "Departed"), actor1 = c("Leo", "Jack"), actor2...

13得票1回答
当列表项失败或执行时间过长时,我该如何设置lapply的超时时间?

对于我目前参与的几项工作,我正在通过一系列函数运行大型数据集和众多参数组合。这些函数有一个包装器(以便我可以使用mclapply)来方便在群集上操作。然而,我遇到了两个主要挑战。 a)我的参数组合很多(想象一下20k到100k)。有时候特定的组合会失败(例如,生存率过高,死亡率过低,因此模型...

13得票1回答
在Python/pandas中,是否有类似于R中transform和ddply函数的等效函数?

在R的ddply函数中,您可以按组计算任何新列,并将结果附加到原始数据框中,例如:ddply(mtcars, .(cyl), transform, n=length(cyl)) # n is appended to the df 在Python/pandas中,我先计算了它,然后再合并,例如:...

13得票2回答
在R中最快的“高宽旋转”

我在处理一个简单的表格,其形式如下:date variable value 1970-01-01 V1 0.434 1970-01-01 V2 12.12 1970-01-01 V3 921.1 1970-01-0...

13得票4回答
如何在R或Matlab中叠加两个密集的散点图,以便可以看到每个图的轮廓?

参考此示例 这是在matlab中通过独立制作两个散点图、创建每个图像,然后使用imagesc将它们绘制到同一个图中,并将顶部图像的alpha设置为0.5实现的。 我想在R或matlab中做到这一点,而不使用图像,因为创建图像不会保留坐标轴比例信息,也无法覆盖网格(例如,在matlab中使用...

13得票3回答
使用ddply进行cumsum

我需要在使用ddply或aggregate时按层次使用group by。由于需要使用cumsum作为聚合函数,因此我不太确定如何做到这一点。这是我的数据长这样:level1 level2 hour product A tea 0 ...

12得票1回答
如何使用do函数将某列中不同数量的字符串进行分割

当列元素具有不同数量的字符串时,我在分割列值方面遇到了问题。 我可以在plyr中做到这一点,例如:library(plyr) column <- c("jake", "jane jane","john john john") df <- data.frame(1:3, name =...

12得票3回答
l_ply:如何将列表的名称属性传递到函数中?

假设我有一个如下的R列表:> summary(data.list) Length Class Mode aug9104AP 18 data.frame lis...

12得票2回答
在R中为矩阵中某些相关性生成图表

我希望生成变量(列)之间存在相关性的图表,包括相关性大于和小于某一点且p值小于0.01的变量。这些图表将是使用ggplot2绘制的线形或条形图,绘制两个相关的列(变量)。目前我的方法概述如下,附有虚拟数据,我希望得到下一步的指引。# Create some dummy data df <...