从R数据框中选择一系列行

Question

从R数据框中选择一系列行

4

我有一个包含1000行的数据框，我想每次对其中100行进行操作。因此，我正在尝试找出如何在行数上使用计数器递增，并选择100行作为一组，例如1到100，101到200...直到1000，然后使用for循环对每个子集执行操作。请问有什么好方法可以实现这个目标吗？

- Kunal Batra

2个回答

1

@mrdwab的回答很好，展示了如何避免使用for循环。但如果你真的必须使用for循环（例如biglm包），那么这里有一种方法：

for( i in seq(1,1000,by=100) ) {
  myfun( df[ i:(i+99), ] )
}

如果总行数不是块大小的倍数，则您可能需要类似以下的内容：

tmp <- seq( 1, nrow(df), by=100 )
tmp2 <- c( tail( tmp, -1)-1, nrow(df) )
n <- length(tmp)
out <- numeric(n)
for( i in seq_along(tmp) ) {
  out[i] <- myfun( df[ tmp[i]:tmp2[i], ] )
}

- Greg Snow

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- A5C1D2H2I1M1N2O1R2T1 · Accepted Answer

一个简单的方法是创建一个分组变量，然后使用split()和lapply()来执行您需要的任何操作。

您可以使用rep()轻松创建您的分组。

以下是一个示例：

set.seed(1)
demo = data.frame(A = sample(300, 50, replace=TRUE),
                  B = rnorm(50))
demo$groups = rep(1:5, each=10)
demo.split = split(demo, demo$groups)
lapply(demo.split, colMeans)
# $`1`
#           A           B      groups 
# 165.9000000  -0.1530186   1.0000000 
# 
# $`2`
#           A           B      groups 
# 168.2000000   0.1141589   2.0000000 
# 
# $`3`
#           A           B      groups 
# 126.0000000   0.1625241   3.0000000 
# 
# $`4`
#           A           B      groups 
# 159.4000000   0.3340555   4.0000000 
# 
# $`5`
#           A           B      groups 
# 181.8000000   0.0363812   5.0000000

如果你不想将组添加到源data.frame中，你可以通过以下方式实现相同的效果：

groups = rep(1:5, each=10)
lapply(split(demo, groups), colMeans)

当然，您可以用任何函数替换colMeans。

以您的1000行数据框为例，您的rep()语句应该是这样的：

rep(1:10, each=100)