使用dplyr折叠行

3

我是R语言的新手,正在尝试使用dplyr根据行值合并行。下面的示例展示了样本数据。

set.seed(123)

df<-data.frame(A=c(rep(1:4,4)),
               B=runif(16,min=0,max=1),
               C=rnorm(16, mean=1,sd=0.5))

   A B          c
1  1 0.36647435 0.7485365
2  2 0.51864614 0.8654337
3  3 0.04596929 0.9858012
4  4 0.15479619 1.1294208
5  1 0.76712372 1.2460700
6  2 0.17666676 0.7402996
7  3 0.89759874 1.2699954
8  4 0.90267735 0.7101804
9  1 0.91744223 0.3451281
10 2 0.25472599 0.8604743
11 3 0.10933985 0.8696796
12 4 0.71656017 1.2648846
13 1 0.21157810 1.3170205
14 2 0.14947268 1.2789700
15 3 0.92251060 1.5696901
16 4 0.30090579 1.7642853

我希望能够根据列 A 中值为 1 和 2 的行作为一行(即行 1 和 2 的平均值),来汇总/折叠两行。因此,最终结果只有 12 行,因为其他 4 行已经被合并。

我尝试使用以下的 dplyr 函数,但效果不佳。

安装包 ("tidyverse") 加载库 (tidyverse)

df %>% summarize_each( fun(i){ for i %in% c(1,2)funs(mean) })

期望的输出结果应该是这样的:
   A    B           C
1  1.5  0.4425602   0.8069851
3  3    0.04596929  0.9858012
4  4    0.15479619  1.1294208
5  1.5  0.4718952   0.9931848
7  3    0.89759874  1.2699954
8  4    0.90267735  0.7101804
9  1.5  0.5860841   0.6028012
11 3    0.10933985  0.8696796
12 4    0.71656017  1.2648846
13 1.5  0.1805254   1.297995
15 3    0.92251060  1.5696901
16 4    0.30090579  1.7642853

提前感谢您。


行并没有完全折叠,它们是2个2个折叠的,而您并没有解释规则,在您的真实数据中,是否真的有连续4行像这样? - moodymudskipper
@Moody_Mudskipper,如果A列中的值为1和2,则行将被折叠。 - G1124E
在生成随机数据时,最好在你的示例中包含一个 set.seed() 调用。这样其他人就可以完全复制你的结果! - Mikko Marttila
1
我已经阅读了这篇内容,但它似乎是按4个一组工作的,这是所选答案所采取的假设,但在你的问题中并没有明确说明。 - moodymudskipper
2个回答

2
通过将隐式的、基于组的分组明确化,可以使用单个summarise_all调用完成摘要。
# Generate the data
set.seed(1)

df <- data.frame(
  A = c(rep(1:4, 4)), 
  B = runif(16, min = 0, max = 1), 
  C = rnorm(16, mean = 1, sd = 0.5)
)

library(dplyr)

new <- df %>%
  group_by(grp = rep(
    1:4,      # vector containing names of groups to create
    each = 4  # number of elements in each group
  )) %>% 
  group_by(mean_grp = cumsum(A > 2) + 1, add = T) %>%
  summarise_all(mean) %>%
  ungroup()

new
#> # A tibble: 12 x 5
#>      grp mean_grp     A         B           C
#>    <int>    <dbl> <dbl>     <dbl>       <dbl>
#>  1     1        1   1.5 0.3188163 1.067598241
#>  2     1        2   3.0 0.5728534 1.755890584
#>  3     1        3   4.0 0.9082078 1.194921618
#>  4     2        1   1.5 0.5500358 0.291014883
#>  5     2        2   3.0 0.9446753 1.562465459
#>  6     2        3   4.0 0.6607978 0.977533195
#>  7     3        1   1.5 0.3454502 1.231911487
#>  8     3        2   3.0 0.2059746 1.410610598
#>  9     3        3   4.0 0.1765568 1.296950661
#> 10     4        1   1.5 0.5355633 1.425278418
#> 11     4        2   3.0 0.7698414 1.037282492
#> 12     4        3   4.0 0.4976992 0.005324152

我建议在汇总后保留数据中的分组变量(如果一开始就包括它们,一切都会更简单),但是如果你想要的话,可以使用new %>% select(-grp, -mean_grp)来删除它们。
PS. 为了避免在代码中包含“魔数”(例如创建“grp”时的1:4each = 4),您也可以将第一个分组变量创建为:
grp = cumsum(A < lag(A, default = A[1])) + 1

假设原始数据被排序,以便每当 A 的值小于先前的 A 值时,就会开始一个新组。

1
我尝试运行代码,但是出现了这个错误信息:Error in mutate_impl(.data, dots) : wrong result size (64), expected 16 or 1 我不确定为什么在第一个 group_by 函数中需要 each=4 参数。我也尝试过省略 each=4 参数运行代码,但输出结果并没有按预期排序。你能否请解释一下这个问题? - G1124E
啊,那是个打字错误:在进行一些样式设计时可能会留下它。您可以省略第一个“4”,但需要使用“each”将4个相邻的行分组在一起。我已经进行了编辑。 - Mikko Marttila

1

一种选择是将值为1或2的 A 行与其他行分开处理,然后再将它们绑定在一起:

set.seed(3)
df<-data.frame(A=c(rep(1:4,4)),B=runif(16,min=0,max=1),c=rnorm(16, mean=1,sd=0.5))

df %>% 
  filter(A %in% 1:2) %>% 
  group_by(tmp=cumsum(A==1)) %>% 
  summarise_all(mean) %>% 
  ungroup %>% select(-tmp) %>% 
  bind_rows(df %>% filter(!A %in% 1:2))
       A         B         c
   <dbl>     <dbl>     <dbl>
 1   1.5 0.4877790 1.0121278
 2   1.5 0.6032474 0.8840735
 3   1.5 0.6042946 0.5996850
 4   1.5 0.5456424 0.6198039
 5   3.0 0.3849424 0.6276092
 6   4.0 0.3277343 0.4343907
 7   3.0 0.1246334 1.0760229
 8   4.0 0.2946009 0.8461718
 9   3.0 0.5120159 1.6121568
10   4.0 0.5050239 1.0999058
11   3.0 0.8679195 0.8981359
12   4.0 0.8297087 0.1667626

谢谢@eipi10。我想知道如何保留行的顺序,以便可以按递增顺序排列行,例如:1.5、3、4、1.5 3、4、1.5 3、4、1.5 3、4。 - G1124E

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接