在R中进行日期汇总

Question

在R中进行日期汇总

6

我有一个数据集，看起来像这样：

    ID  FromDate    ToDate  SiteID  Cost
    1   8/12/2014   8/31/2014   12  245.98
    1   9/1/2014    9/7/2014    12  269.35
    1   10/10/2014  10/17/2014  12  209.98
    1   11/22/2014  11/30/2014  12  309.12
    1   12/1/2014   12/11/2014  12  202.14
    2   8/16/2014   8/21/2014   12  109.35
    2   8/22/2014   8/24/2014   14  44.12
    2   9/25/2014   9/29/2014   12  98.75
    3   9/15/2014   9/30/2014   23  536.27
    3   10/1/2014   10/31/2014  12  529.87
    3   11/1/2014   11/30/2014  12  969.55
    3   12/1/2014   12/12/2014  12  607.35

What I would like this to look like is:

    ID  FromDate    ToDate  SiteID  Cost
    1   8/12/2014   9/7/2014    12  515.33
    1   10/10/2014  10/17/2014  12  209.98
    1   11/22/2014  12/11/2014  12  511.26
    2   8/16/2014   8/21/2014   12  109.35
    2   8/22/2014   8/24/2014   14  44.12
    2   9/25/2014   9/29/2014   12  98.75
    3   9/15/2014   9/30/2014   23  536.27
    3   10/1/2014   12/12/2014  12  2106.77

可以看到，如果有连续的日期，则会将日期合并，并且成本会按ID和SiteID加总。为了帮助某人理解复杂性，如果日期区间有延续，但SiteID发生变化，则它是一个单独的行。如果日期区间没有延续，则是一行单独的数据。在R中如何实现？另外，我有超过100,000个不同的ID。那么，最有效的方式/包应该选择哪一个呢？

- akash87

2个回答

2

以下是使用 dplyr 和 tidyr 的一种方法——也许还有一些机会可以改进，但基本思路是创建一个新的分组指标。对于这个问题，拥有更好的 data.table 技能的人可能会想出更加巧妙的解决方案。

library(dplyr)
library(tidyr)

df$FromDate <- lubridate::mdy(df$FromDate)
df$ToDate <- lubridate::mdy(df$ToDate)

gather(df, Date, Val, -c(ID, SiteID, Cost)) %>%
  arrange(ID, SiteID, Val, Date) %>%
  group_by(ID, SiteID) %>%
  mutate(lagDateDiff = as.integer(Val - lag(Val)),
         indicator = ifelse(Date == "ToDate" | is.na(lagDateDiff), 0, 
                            ifelse((Date == "FromDate" & lagDateDiff == 1), 0, 1)),
         newGroup = cumsum(indicator)) %>% # Run to here to see intermediate result
  select(-lagDateDiff, -indicator) %>%
  spread(Date, Val) %>%
  group_by(ID, SiteID, newGroup) %>%
  summarise(Min_From_Date = min(FromDate),
            Max_To_Date = max(ToDate),
            Sum_Cost = sum(Cost))

#     ID SiteID newGroup Min_From_Date Max_To_Date Sum_Cost
#   (int)  (int)    (dbl)        (date)      (date)    (dbl)
# 1     1     12        0    2014-08-12  2014-09-07   515.33
# 2     1     12        1    2014-10-10  2014-10-17   209.98
# 3     1     12        2    2014-11-22  2014-12-11   511.26
# 4     2     12        0    2014-08-16  2014-08-21   109.35
# 5     2     12        1    2014-09-25  2014-09-29    98.75
# 6     2     14        0    2014-08-22  2014-08-24    44.12
# 7     3     12        0    2014-10-01  2014-12-12  2106.77
# 8     3     23        0    2014-09-15  2014-09-30   536.27

- JasonAizkalns

我不熟悉 %>% 符号，请问您能提供相关链接或文档吗？ - akash87

%>% 来自 magrittr 包。简而言之，它被称为“管道”操作符，可以将一个值传递到表达式或调用中。我们可以使用 x %>% f 代替 f(x)，这使得某些代码链更易于阅读和维护。 - JasonAizkalns

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Khashaa · Accepted Answer

这可能可行。

df %>% 
  mutate(gr = cumsum(FromDate-lag(ToDate, default=1) != 1)) %>% 
  group_by(gr, ID, SiteID) %>% 
  summarise(FromDate = min(FromDate), 
            ToDate   = max(ToDate), 
            cost     = sum(Cost))


     gr    ID SiteID   FromDate     ToDate    cost
  (int) (int)  (int)     (date)     (date)   (dbl)
1     1     1     12 2014-08-12 2014-09-07  515.33
2     2     1     12 2014-10-10 2014-10-17  209.98
3     3     1     12 2014-11-22 2014-12-11  511.26
4     4     2     12 2014-08-16 2014-08-21  109.35
5     4     2     14 2014-08-22 2014-08-24   44.12
6     5     2     12 2014-09-25 2014-09-29   98.75
7     6     3     23 2014-09-15 2014-09-30  536.27
8     6     3     12 2014-10-01 2014-12-12 2106.77

使用 data.table 进行数据处理。

library(data.table)
setDT(df)
df[, gr := cumsum(FromDate - shift(ToDate, fill=1) != 1),
   ][, list(FromDate=min(FromDate), ToDate=max(ToDate), cost=sum(Cost)), by=.(gr, ID, SiteID)]



   gr ID SiteID   FromDate     ToDate    cost
1:  1  1     12 2014-08-12 2014-09-07  515.33
2:  2  1     12 2014-10-10 2014-10-17  209.98
3:  3  1     12 2014-11-22 2014-12-11  511.26
4:  4  2     12 2014-08-16 2014-08-21  109.35
5:  4  2     14 2014-08-22 2014-08-24   44.12
6:  5  2     12 2014-09-25 2014-09-29   98.75
7:  6  3     23 2014-09-15 2014-09-30  536.27
8:  6  3     12 2014-10-01 2014-12-12 2106.77