根据滚动日期内存在的条件创建新列

3
为了更加通用化这个问题,我认为它可以重述为: 创建一个滚动的时间敏感的因子变量。虽然这不是一个常见的需求,但它可以用于许多不同的数据源。
我有一系列不规则的时间数据,每天有超过1条记录,有成千上万的用户。我想创建一个新的列player_type,来跟踪他们行为的滚动30天的定义。该行为是由他们玩的游戏定义的;该列 'games' 是一个包含游戏A、游戏B的因子。
因此,有三种类型的行为:
  1. 只玩游戏A - 'A'
  2. 只玩游戏B - 'B'
  3. 同时玩两个游戏 - '混合'
我想使用这个新的列来看到他们随着时间的变化而改变的玩法行为,以及计算每组玩家在整个时间序列中的数量,以查看它们如何变化。 每个玩家的时间序列都非常不规则。 每天玩家可能会玩多种类型的游戏,也可能在很多个月内都没有玩任何游戏。每个玩家的时间序列都是不规则的,只有在玩家玩游戏时才会创建一条记录,因此我希望解决方案可能使用类似于以下过滤器的方法: interval(current_date, current_date - new_period(days=30) (使用lubridate)。
下面是一个示例数据集。请记住这个数据集是简化的,用于测试每天滚动1天的变化,所以简单的检查前一条记录的方法实际上是行不通的。 如果你能制作出更好的数据集,请告诉我,我会编辑这篇文章。
p <- c( 1,   1,   1,   2,   2,   2,   6,   6,   6)

g <- c('A', 'B', 'B', 'A', 'B', 'A', 'A', 'B', 'B')

d <- seq(as.Date('2014-10-01'), as.Date('2014-10-9'), by=1)

df <- data.frame(player_id = p, date = d, games = g)

我需要的输出结果是:

 player_id       date games   type
1         1 2014-10-01     A      A (OR NA)
2         1 2014-10-02     B Hybrid
3         1 2014-10-03     B      B
4         2 2014-10-04     A      A (OR NA)
5         2 2014-10-05     B Hybrid
6         2 2014-10-06     A Hybrid
7         6 2014-10-07     A      A (OR NA)
8         6 2014-10-08     B Hybrid
9         6 2014-10-09     B      B

解决方案应该是像这样,逐列进行apply,并应用一个函数来检查30天前的情况,并使用ifelse()语句查看他们玩了什么游戏。
这是一个非常类似的帖子 - 应该有助于解决这个问题。查看链接:如何进行只在特定日期范围内查找的条件总和 我还探索了使用dplyr的rowwise()mutates(),但对我来说历史时间是一个难点。
感谢所有的帮助!我无法感谢这个论坛足够多。我会经常回来查看。

在你的真实数据中,你需要检查每一行的前30行吗?还是只需要检查前一行(就像这个例子中一样),但是行之间的差值始终为30天? - talat
我需要按照玩家检查前30天的记录。这可能是许多行,也可能少于30行。行之间的差异是不一致的。他们可能在同一天玩两个游戏,或者有几个月都没有玩任何一个游戏。 - Ryan Kelly
1个回答

4
假设我理解正确,这里有一个使用 `foverlaps()` 函数的 `data.table` 方法。 创建 `dt` 并按下面所示设置键:
dt <- data.table(player_id = p, games = g, date = d, end_date = d)
setkey(dt, player_id, date, end_date)

hybrid_index <- function(dt, roll_days) {
    ivals = copy(dt)[, date := date-roll_days]
    olaps = foverlaps(ivals, dt, type="any", which=TRUE)
    olaps[, val := dt$games[xid] != dt$games[yid]]
    olaps[, any(val), by=xid][(V1), xid]
}

我们创建了一个虚拟的数据表 ivals(代表区间),对于每一行,我们指定了开始和结束日期。请注意,通过将 end_date 指定为与 dt$end_date 相同,我们肯定会有一个匹配项(这是故意的)——这将为您提供所需的非 NA 版本。
[稍加更改即可获得 NA 版本,但我会留给你。]
有了这个,我们就可以找到与 dt 重叠的来自 ivals 的范围,针对每个 player_id。我们获取匹配的索引。从那里开始很简单。如果玩家的游戏是非均质的,那么我们就返回 hybrid_indexdt 的相应索引。然后我们将这些索引替换为 "hybrid"。
# roll days = 1L
dt[, type := games][hybrid_index(dt, 1L), type := "hybrid"]
#    player_id games       date   end_date   type
# 1:         1     A 2014-10-01 2014-10-01      A
# 2:         1     B 2014-10-02 2014-10-02 hybrid
# 3:         1     B 2014-10-03 2014-10-03      B
# 4:         2     A 2014-10-04 2014-10-04      A
# 5:         2     B 2014-10-05 2014-10-05 hybrid
# 6:         2     A 2014-10-06 2014-10-06 hybrid
# 7:         6     A 2014-10-07 2014-10-07      A
# 8:         6     B 2014-10-08 2014-10-08 hybrid
# 9:         6     B 2014-10-09 2014-10-09      B

# roll days = 2L
dt[, type := games][hybrid_index(dt, 2L), type := "hybrid"]
#    player_id games       date   end_date   type
# 1:         1     A 2014-10-01 2014-10-01      A
# 2:         1     B 2014-10-02 2014-10-02 hybrid
# 3:         1     B 2014-10-03 2014-10-03 hybrid
# 4:         2     A 2014-10-04 2014-10-04      A
# 5:         2     B 2014-10-05 2014-10-05 hybrid
# 6:         2     A 2014-10-06 2014-10-06 hybrid
# 7:         6     A 2014-10-07 2014-10-07      A
# 8:         6     B 2014-10-08 2014-10-08 hybrid
# 9:         6     B 2014-10-09 2014-10-09 hybrid

为了更清晰地阐述这个想法,我创建了一个函数并将 dt 复制到函数中。但是你可以避免这样做,直接将日期添加到 ivals 中,并利用 foverlaps() 中的 by.xby.y 参数。请参考 ?foverlaps

2
这太棒了。已验证在我的真实数据上运行正常。非常有见地的答案。谢谢。 - Ryan Kelly

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接