在R中计算给定开始日期和结束日期的每月员工人数。

Question

在R中计算给定开始日期和结束日期的每月员工人数。

3

以下是员工的开始和结束日期列表。如果有成千上万的员工，我们如何高效地计算每月的员工人数呢？

begin <- as.Date(c("2015-07-06","2015-07-06","2015-07-27","2015-07-06","2015-06-29",
               "2015-07-06","2015-07-06","2015-07-06","2015-07-13","2015-06-29",
               "2015-07-06","2015-07-06","2015-07-13","2015-07-01","2015-07-06",
               "2015-07-06","2015-07-06","2015-07-09","2015-07-13"),format = "%Y-%m-%d")

end <- as.Date(c("2018-08-03","2016-01-11","2999-12-31","2017-03-13","2999-12-31",
             "2015-10-20","2999-12-31","2018-09-24","2999-12-31","2015-09-25",
             "2019-11-01","2999-12-31","2018-03-26","2018-08-08","2015-10-13",
             "2999-12-31","2999-12-31","2021-02-11","2999-12-31"), format = "%Y-%m-%d")

smallEmp <- data.frame(begin,end)


method_currentsolution = function() {
date_df = tibble(Date = seq(from=as.Date('2015-01-01'), to=Sys.Date(), by =   "month"))
queue_history = merge(smallEmp, date_df, all=TRUE) %>% 
filter(Date >= begin, Date <= end) %>%
group_by(Date) %>% 
summarise(cnt = n())
}

result <- method_currentsolution()

smallEmp是包含开始日期和结束日期的数据集。

这个解决方案可以工作，但对于非常大的数据集来说速度很慢，因为它会为每个感兴趣的月份重复所有员工。如果有任何建议可以加快这个过程，将不胜感激。

- user3482393

4个回答

2

你可以使用 data.table 进行相同的操作，使用“非等连接”非常高效：

small_emp <- data.table(
  begin = as.Date(
    c(
      "2015-07-06","2015-07-06","2015-07-27","2015-07-06","2015-06-29",
      "2015-07-06","2015-07-06","2015-07-06","2015-07-13","2015-06-29",
      "2015-07-06","2015-07-06","2015-07-13","2015-07-01","2015-07-06",
      "2015-07-06","2015-07-06","2015-07-09","2015-07-13"
    ),
    format = "%Y-%m-%d"
  ),
  end = as.Date(
    c(
      "2018-08-03","2016-01-11","2999-12-31","2017-03-13","2999-12-31",
      "2015-10-20","2999-12-31","2018-09-24","2999-12-31","2015-09-25",
      "2019-11-01","2999-12-31","2018-03-26","2018-08-08","2015-10-13",
      "2999-12-31","2999-12-31","2021-02-11","2999-12-31"
    ),
    format = "%Y-%m-%d"
  )
)

all_dates <- data.table(
  date = seq(from = as.Date('2015-01-01'), to = Sys.Date(), by = "month")
)

result2 <- all_dates[
    small_emp, .N, on = .(date >= begin, date <= end), keyby = .(date)
]

请注意，非等值连接中的on规范有些棘手。它不是任意的R表达式！它是一个形式为lhs_column %binop% rhs_column的“操作”列表。具体来说，date >= begin是有效的，因为date是左侧表格all_dates中的一列，而begin是右侧表格small_emp中的一列。

此外，在on中指定的列名将被丢弃，并在此情况下替换为date.1。实际上，我并不太理解这里的规则，也没有看到很好的文档说明。也许有人可以在评论中解释一下这个工作原理！

- shadowtalker

2

你可以尝试使用 fuzzjoin -

library(dplyr)

method_fuzzy = function(df) {
  date_df = tibble(Date = seq(from=as.Date('2015-01-01'), 
                              to=Sys.Date(), by = "month"))

  fuzzyjoin::fuzzy_inner_join(date_df, df, 
                              by = c('Date' = 'begin', 'Date' = 'end'), 
                              match_fun = c(`>=`, `<=`)) %>%
    count(Date)
}

method_fuzzy(smallEmp)

- Ronak Shah

它可以工作，但比原解决方案慢得多。对于大约50,000名员工，原始解决方案需要7.2秒，而模糊连接需要1.35分钟。 - user3482393

2

这里是使用 foverlaps() 的 data.table 方法。请注意，如果您将 2999 年减少到另一个（更接近）令人难以置信的数字，例如 2099 年，则此解决方案将运行得更快。

library(data.table)
DT <- data.table(start  = begin, end = end)
answer <- data.table(date = seq(min(DT$start), max(DT$end), by = "1 days"))
answer[, dummy := date]
#set keys
setkey(DT, start, end)
setkey(answer, date, dummy)
#overlap join ans summarise
final <- foverlaps(DT, answer)[, .N, by = date]
# 1: 2015-06-29 2
# 2: 2015-06-30 2
# 3: 2015-07-01 3
# 4: 2015-07-02 3
# 5: 2015-07-03 3
# ---             
# 359581: 2999-12-27 8
# 359582: 2999-12-28 8
# 359583: 2999-12-29 8
# 359584: 2999-12-30 8
# 359585: 2999-12-31 8

#create nicer looking intervals
final[, .(from = min(date), to = max(date), N = min(N)), by = (id = rleid(N))]
#    id       from         to  N
# 1:  1 2015-06-29 2015-06-30  2
# 2:  2 2015-07-01 2015-07-05  3
# 3:  3 2015-07-06 2015-07-08 14
# 4:  4 2015-07-09 2015-07-12 15
# 5:  5 2015-07-13 2015-07-26 18
# 6:  6 2015-07-27 2015-09-25 19
# 7:  7 2015-09-26 2015-10-13 18
# 8:  8 2015-10-14 2015-10-20 17
# 9:  9 2015-10-21 2016-01-11 16
#10: 10 2016-01-12 2017-03-13 15
#11: 11 2017-03-14 2018-03-26 14
#12: 12 2018-03-27 2018-08-03 13
#13: 13 2018-08-04 2018-08-08 12
#14: 14 2018-08-09 2018-09-24 11
#15: 15 2018-09-25 2019-11-01 10
#16: 16 2019-11-02 2021-02-11  9
#17: 17 2021-02-12 2999-12-31  8

- Wimpel

好主意。我使用了sys.Date()而不是2999年的日期，因为我们只关心今天之前的情况，我们不知道明天会发生什么。 - user3482393

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Benjamin Christoffersen · Accepted Answer

一种基本的 R 解决方案是：

date_df <- data.frame(
  Date = seq(from=as.Date('2015-01-01'), to=Sys.Date(), by = "month"))
date_df$count <- sapply(date_df$Date, function(x) sum(x >= begin & x <= end))
date_df <- subset(date_df, count > 0)
head(date_df, 10)
#R>          Date count
#R> 7  2015-07-01     3
#R> 8  2015-08-01    19
#R> 9  2015-09-01    19
#R> 10 2015-10-01    18
#R> 11 2015-11-01    16
#R> 12 2015-12-01    16
#R> 13 2016-01-01    16
#R> 14 2016-02-01    15
#R> 15 2016-03-01    15
#R> 16 2016-04-01    15

这可能更快，但会使用更多的峰值内存。

date_df_2 <- data.frame(
  Date = seq(from=as.Date('2015-01-01'), to=Sys.Date(), by = "month"))
date_df_2$count <- 
  rowSums(outer(date_df_2$Date, begin, `>=`) & outer(date_df_2$Date, end, `<=`))
date_df_2 <- subset(date_df_2, count > 0)

# we got the same
all.equal(date_df_2, date_df)
#R> [1] TRUE

两种解决方案可以在 R 4.1.0 或更高版本中按照以下方式更好地编写:

date_df_3 <- data.frame(
  Date = seq(as.Date('2015-01-01'), Sys.Date(), by = "month")) |>
  transform(count = sapply(Date, \(x) sum(x >= begin & x <= end))) |>
  subset(count > 0)

date_df_4 <- data.frame(
  Date = seq(as.Date('2015-01-01'), Sys.Date(), by = "month")) |>
  transform(
    count = rowSums(outer(Date, begin, `>=`) & outer(Date, end, `<=`))) |>
  subset(count > 0)

# we got the same
all.equal(date_df_3, date_df)
#R> [1] TRUE
all.equal(date_df_4, date_df)
#R> [1] TRUE

你可能需要将>=和<=中的一个更改为>或<。

这是一个简单的基准测试，它通过重复OP提供的数据来创建。

# repeat the data a number of times to create a larger data set
begin <- rep(begin, 1000)
end <- rep(end, 1000)
smallEmp <- data.frame(begin,end)
small_emp <- data.table(begin = begin, end = end)

# perform the benchmark
bench::mark(
  OP = method_currentsolution(),
  sapply = data.frame(
    Date = seq(as.Date('2015-01-01'), Sys.Date(), by = "month")) |>
    transform(count = sapply(Date, \(x) sum(x >= begin & x <= end))) |>
    subset(count > 0),
  rowSums = data.frame(
    Date = seq(as.Date('2015-01-01'), Sys.Date(), by = "month")) |>
    transform(
      count = rowSums(outer(Date, begin, `>=`) & outer(Date, end, `<=`))) |>
    subset(count > 0),
  data.table = {
    all_dates <- data.table(
      date = seq(from = as.Date('2015-01-01'), to = Sys.Date(), by = "month"))
    all_dates[small_emp, .N, on = .(date >= begin, date <= end), keyby = .(date)]
  },
  `data.table (by)` = {
    all_dates <- data.table(
      date = seq(from = as.Date('2015-01-01'), to = Sys.Date(), by = "month"))
    all_dates[small_emp, .N, on = .(date >= begin, date <= end), by = .(date)]
  },
  fuzzy_inner_join = method_fuzzy(smallEmp), check = FALSE, memory = FALSE)
#R> # A tibble: 6 x 13
#R>   expression            min   median `itr/sec` mem_alloc `gc/sec` n_itr  n_gc total_time result memory time            gc               
#R>   <bch:expr>       <bch:tm> <bch:tm>     <dbl> <bch:byt>    <dbl> <int> <dbl>   <bch:tm> <list> <list> <list>          <list>           
#R> 1 OP                  2.87s    2.87s    0.349         NA     1.74     1     5      2.87s <NULL> <NULL> <bench_tm [1]>  <tibble [1 × 3]> 
#R> 2 sapply             8.91ms   9.42ms   55.9           NA     7.71    29     4   518.53ms <NULL> <NULL> <bench_tm [29]> <tibble [29 × 3]>
#R> 3 rowSums           28.26ms  56.98ms   15.9           NA    24.7      9    14   566.25ms <NULL> <NULL> <bench_tm [9]>  <tibble [9 × 3]> 
#R> 4 data.table        23.34ms  23.89ms   25.8           NA     7.95    13     4   503.36ms <NULL> <NULL> <bench_tm [13]> <tibble [13 × 3]>
#R> 5 data.table (by)   23.22ms   28.4ms   33.9           NA     3.99    17     2   500.82ms <NULL> <NULL> <bench_tm [17]> <tibble [17 × 3]>
#R> 6 fuzzy_inner_join   16.09s   16.09s    0.0622        NA     8.21     1   132     16.09s <NULL> <NULL> <bench_tm [1]>  <tibble [1 × 3]>

< p > sapply解决方案是最快的。它比第二快的data.table版本快2倍以上。对于其他大小的数据（例如数百万个数据点而不是19000个），情况可能会有所不同。