根据滚动日期内存在的条件创建新列

Question

根据滚动日期内存在的条件创建新列

rconditional-statementsdata.tabledplyrdate-range

3

为了更加通用化这个问题，我认为它可以重述为: 创建一个滚动的时间敏感的因子变量。虽然这不是一个常见的需求，但它可以用于许多不同的数据源。

我有一系列不规则的时间数据，每天有超过1条记录，有成千上万的用户。我想创建一个新的列player_type，来跟踪他们行为的滚动30天的定义。该行为是由他们玩的游戏定义的；该列 'games' 是一个包含游戏A、游戏B的因子。

因此，有三种类型的行为：

只玩游戏A - 'A'
只玩游戏B - 'B'
同时玩两个游戏 - '混合'

我想使用这个新的列来看到他们随着时间的变化而改变的玩法行为，以及计算每组玩家在整个时间序列中的数量，以查看它们如何变化。 每个玩家的时间序列都非常不规则。 每天玩家可能会玩多种类型的游戏，也可能在很多个月内都没有玩任何游戏。每个玩家的时间序列都是不规则的，只有在玩家玩游戏时才会创建一条记录，因此我希望解决方案可能使用类似于以下过滤器的方法： interval(current_date, current_date - new_period(days=30) (使用lubridate)。

下面是一个示例数据集。请记住这个数据集是简化的，用于测试每天滚动1天的变化，所以简单的检查前一条记录的方法实际上是行不通的。如果你能制作出更好的数据集，请告诉我，我会编辑这篇文章。

p <- c( 1,   1,   1,   2,   2,   2,   6,   6,   6)

g <- c('A', 'B', 'B', 'A', 'B', 'A', 'A', 'B', 'B')

d <- seq(as.Date('2014-10-01'), as.Date('2014-10-9'), by=1)

df <- data.frame(player_id = p, date = d, games = g)

我需要的输出结果是：

 player_id       date games   type
1         1 2014-10-01     A      A (OR NA)
2         1 2014-10-02     B Hybrid
3         1 2014-10-03     B      B
4         2 2014-10-04     A      A (OR NA)
5         2 2014-10-05     B Hybrid
6         2 2014-10-06     A Hybrid
7         6 2014-10-07     A      A (OR NA)
8         6 2014-10-08     B Hybrid
9         6 2014-10-09     B      B

解决方案应该是像这样，逐列进行apply，并应用一个函数来检查30天前的情况，并使用ifelse()语句查看他们玩了什么游戏。

这是一个非常类似的帖子 - 应该有助于解决这个问题。查看链接：如何进行只在特定日期范围内查找的条件总和我还探索了使用dplyr的rowwise()和mutates()，但对我来说历史时间是一个难点。

感谢所有的帮助！我无法感谢这个论坛足够多。我会经常回来查看。

- Ryan Kelly

在你的真实数据中，你需要检查每一行的前30行吗？还是只需要检查前一行（就像这个例子中一样），但是行之间的差值始终为30天？ - talat

我需要按照玩家检查前30天的记录。这可能是许多行，也可能少于30行。行之间的差异是不一致的。他们可能在同一天玩两个游戏，或者有几个月都没有玩任何一个游戏。 - Ryan Kelly

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Arun · Accepted Answer

假设我理解正确，这里有一个使用 `foverlaps()` 函数的 `data.table` 方法。创建 `dt` 并按下面所示设置键：

dt <- data.table(player_id = p, games = g, date = d, end_date = d)
setkey(dt, player_id, date, end_date)

hybrid_index <- function(dt, roll_days) {
    ivals = copy(dt)[, date := date-roll_days]
    olaps = foverlaps(ivals, dt, type="any", which=TRUE)
    olaps[, val := dt$games[xid] != dt$games[yid]]
    olaps[, any(val), by=xid][(V1), xid]
}

我们创建了一个虚拟的数据表 ivals（代表区间），对于每一行，我们指定了开始和结束日期。请注意，通过将 end_date 指定为与 dt$end_date 相同，我们肯定会有一个匹配项（这是故意的）——这将为您提供所需的非 NA 版本。

[稍加更改即可获得 NA 版本，但我会留给你。]

有了这个，我们就可以找到与 dt 重叠的来自 ivals 的范围，针对每个 player_id。我们获取匹配的索引。从那里开始很简单。如果玩家的游戏是非均质的，那么我们就返回 hybrid_index 中 dt 的相应索引。然后我们将这些索引替换为 "hybrid"。

# roll days = 1L
dt[, type := games][hybrid_index(dt, 1L), type := "hybrid"]
#    player_id games       date   end_date   type
# 1:         1     A 2014-10-01 2014-10-01      A
# 2:         1     B 2014-10-02 2014-10-02 hybrid
# 3:         1     B 2014-10-03 2014-10-03      B
# 4:         2     A 2014-10-04 2014-10-04      A
# 5:         2     B 2014-10-05 2014-10-05 hybrid
# 6:         2     A 2014-10-06 2014-10-06 hybrid
# 7:         6     A 2014-10-07 2014-10-07      A
# 8:         6     B 2014-10-08 2014-10-08 hybrid
# 9:         6     B 2014-10-09 2014-10-09      B

# roll days = 2L
dt[, type := games][hybrid_index(dt, 2L), type := "hybrid"]
#    player_id games       date   end_date   type
# 1:         1     A 2014-10-01 2014-10-01      A
# 2:         1     B 2014-10-02 2014-10-02 hybrid
# 3:         1     B 2014-10-03 2014-10-03 hybrid
# 4:         2     A 2014-10-04 2014-10-04      A
# 5:         2     B 2014-10-05 2014-10-05 hybrid
# 6:         2     A 2014-10-06 2014-10-06 hybrid
# 7:         6     A 2014-10-07 2014-10-07      A
# 8:         6     B 2014-10-08 2014-10-08 hybrid
# 9:         6     B 2014-10-09 2014-10-09 hybrid

为了更清晰地阐述这个想法，我创建了一个函数并将 dt 复制到函数中。但是你可以避免这样做，直接将日期添加到 ivals 中，并利用 foverlaps() 中的 by.x 和 by.y 参数。请参考 ?foverlaps。