我想要在数据框中统计一个因素的出现次数。例如,对于下面的代码中给定类型的事件进行计数:library(plyr) events <- data.frame(type = c('A', 'A', 'B'), quantity = c(1, 2,...
我的聚合需求在列/数据框之间有所不同。我想动态地向data.table传递“list”参数。以下是一个最简化的示例:require(data.table) type <- c(rep("hello", 3), rep("bye", 3), rep("ok",3)) a <- (re...
我有一个大数据框,我需要将其中的两列相乘以得到另一列。一开始我是使用for循环来实现的,就像这样:for(i in 1:nrow(df)){ df$new_column[i] <- df$column1[i] * df$column2[i] } 但是这需要大约9天时间。 另一个...
我正在尝试从数据框中获取前n个公司。下面是我的代码。data("Forbes2000", package = "HSAUR") sort(Forbes2000$profits,decreasing=TRUE) 现在我想从这个排序向量中获取前50个观察值。
这个问题涉及将任何非循环同构或异构数据结构集合转换为数据框的通用机制。当处理许多JSON文档的摄入或是一个由字典数组组成的大型JSON文档时,这可能特别有用。 有几个SO问题涉及操作嵌套深的JSON结构并使用功能(例如plyr、lapply等)将它们转换为数据框。我找到的所有问题和答案都是关...
我有一个数据框(datadf),包含3列,'x'、'y'和'z'。其中一些'x'值是缺失的(NA)。'y'和'z'是非测量变量。x y z 153 a 1 163 b 1 NA d 1 123 a 2 145 e 2 NA c 2 NA b 1 199 a 2 ...
我最近发现了data.table包,现在想知道是否应该替换掉我的一些plyr代码。总的来说,我真的很喜欢plyr,而且我基本上实现了我想要的一切。然而,我的代码运行时间比较长,加速的前景足以让我进行一些测试。但是这些测试很快就结束了,原因如下。 我经常使用plyr按包含日期的列对数据进行拆分...
我有一个函数列表。funs <- list(fn1 = function(x) x^2, fn2 = function(x) x^3, fn3 = function(x) sin(x), ...
我有一个长这样的数据框:site date var dil 1 A 7.4 2 2 A 6.5 2 1 A 7.3 3 2 A 7.3 3 1 B 7.1 1 2 ...