按组返回长度的总结

Question

按组返回长度的总结

18

我希望在下面的数据框中添加一列，计算每个月的最长干旱期长度。

这是我的数据框:

   day month year  rr spell spell1
     1     1 1981  0   dry      1
     2     1 1981  0   dry      1
     3     1 1981  0   dry      1
     4     1 1981  1.1 dry      0
     5     1 1981  0   dry      1
     6     1 1981  0   dry      1
     7     1 1981  0   dry      1
     8     1 1981  0   dry      1
     9     1 1981  2.7 dry      0
    10     1 1981  0   dry      1

我需要的输出是：

这是我需要的输出：

 month year  spell_length
     1 1981      3
     1 1981      4
     1 1981      1

这是我目前所做的内容：

group_by(df, year, month, spell1) %>% 
    summarise(spell2 = sum(spell1, na.rm = TRUE))

这是结果：

  year month spell1 spell_length
  <int> <int>  <dbl>  <dbl>
1  1981     1      1     31
2  1981     2      0      0
3  1981     2      1     27
4  1981     3      0      0
5  1981     3      1     25
6  1981     4      0      0

数据

df <- read.table(h= T, text="day month year  rr spell spell1
1     1 1981  0   dry      1
2     1 1981  0   dry      1
3     1 1981  0   dry      1
4     1 1981  1.1 dry      0
5     1 1981  0   dry      1
6     1 1981  0   dry      1
7     1 1981  0   dry      1
8     1 1981  0   dry      1
9     1 1981  2.7 dry      0
10     1 1981  0   dry      1")

- ahmad bello

你能解释一下你的输出是如何实现的吗？例如，rr代表什么意思？ - NelsonGon

1

rr means rainfall value, and spell == dry if rr < 1.0, also spell1 == 1 if spell == dry else 0 - ahmad bello

4个回答

7

使用 dplyr ，我们可以使用 cumsum 在每个 0 的出现处创建组，并统计每个组中的 spells 数量。

library(dplyr)

df %>%
  group_by(month, year, group = cumsum(spell1 == 0)) %>%
  summarise(spell_length = sum(spell1)) %>%
  ungroup() %>%
  select(-group)

#    month  year spell_length
#   <int> <int>        <int>
#1     1  1981            3
#2     1  1981            4
#3     1  1981            1

- Ronak Shah

这也很好用。我在group_by中交换了month和year，以保持数据的原始排列。谢谢@Ronak Shah。请问为什么最后要使用ungroup()？ - ahmad bello

@ahmadbello如果你不执行ungroup()，那么你所做的所有计算都可能会被分组，并可能影响你所要进行的后续计算。因此，为了更安全起见，最好对数据进行“ungroup”处理。 - Ronak Shah

4

这里有一种使用dplyr::count的方法：

library(dplyr)
count(df, month, year, grp = cumsum(spell1 == 0), zero = spell1==0) %>%
  filter(!zero) %>%
  select(-zero, - grp)

# # A tibble: 3 x 3
#   month  year     n
#   <int> <int> <int>
# 1     1  1981     3
# 2     1  1981     4
# 3     1  1981     1

或者使用 R 基础包：

res <- aggregate(day ~  month + year + cumsum(spell1 == 0) + (spell1==0), df, length)
res[!res[[4]],-(3:4)]
#   month year day
# 1     1 1981   3
# 2     1 1981   4
# 3     1 1981   1

- moodymudskipper

4

采用 @akrun 的基本思路，但不使用 data.table::rleid():

df %>%
 group_by(year, month, rleid = with(rle(spell1), rep(seq_along(lengths), lengths))) %>%
 filter(spell1 > 0) %>%
 ungroup() %>%
 count(month, year, rleid, name = "spell_length") %>%
 select(-rleid) 

  month  year spell_length
  <int> <int>        <int>
1     1  1981            3
2     1  1981            4
3     1  1981            1

或者：

df %>%
 group_by(year, month, rleid = with(rle(spell1), rep(seq_along(lengths), lengths))) %>%
 filter(spell1 > 0) %>%
 summarise(spell_length = length(rleid)) %>%
 ungroup() %>%
 select(-rleid)

- tmfmnk

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- akrun · Accepted Answer

一种选项是按照'spell'的'run-length-id'进行分组（使用data.table中的rleid - 当该列的值发生变化时创建一个新的分组id），筛选掉'spell1'为0的行，获取带有n()的行数。

library(dplyr)
library(data.table)
df1 %>%
    group_by(year, month, grp = rleid(spell1)) %>%
    filter(spell1 ==1) %>%
    summarise(spell_length = n()) %>%
    ungroup %>%
    select(-grp)
# A tibble: 3 x 3
#   year month spell_length
#  <int> <int>        <int>
#1  1981     1            3
#2  1981     1            4
#3  1981     1            1

或者使用base R中的rle

rl1 <- rle(df1$spell1)
rl1$lengths[rl1$values > 0]
#[1] 3 4 1

注意：当“spell1”值不同时，此解决方案也适用。