在 R 中将日期范围转换为 1 或 0 的系列

4
我有一份药房索赔数据,列出了每个患者的开始和结束用药日期。为了后续计算,我想记录每个患者在给定日期是否有记录的真(1)或假(0)日记。
使用下面的示例数据,我试图分析2013年1月1日至2013年1月10日这十天的观察结果。
我已经尝试过使用“?seqdate”。

数据

Patient_ID  Start_Date  End_Date  
a           1/1/2013    1/3/2013  
b           1/3/2013    1/8/2013  
c           1/1/2013    1/10/2013  
d           1/7/2013    1/9/2013
a           1/8/2013    1/9/2013

期望输出(长格式)

            a   b   c   d  
1/1/2013    1   0   1   0  
1/2/2013    1   0   1   0  
1/3/2013    1   1   1   0  
1/4/2013    0   1   1   0  
1/5/2013    0   1   1   0  
1/6/2013    0   1   1   0  
1/7/2013    0   1   1   1  
1/8/2013    1   1   1   1  
1/9/2013    1   0   1   1  
1/10/2013   0   0   1   0  

编辑原问题以包括患者ID a的第五条记录。 - Blake
@akrun,我刚才进行了更正以反映出您有关不正确的“c”日期的观察。 - Blake
我已经使用你的新数据更新了帖子,请检查结果。 - akrun
你的 data.table 解决方案在添加第二个 a 病人之前效果很好。但是我遇到了以下错误 Error in seq.Date(as.Date(Start_Date, "%m/%d/%Y"), as.Date(End_Date, "%m/%d/%Y"), : 'from' must be of length 1 @akrun - Blake
1个回答

5

尝试

library(data.table)
res <- setDT(df1)[, seq(as.Date(Start_Date, '%m/%d/%Y'),
    as.Date(End_Date, '%m/%d/%Y'), by='day'), by=list(Patient_ID, 
       1:nrow(df1))]
table(res[,c(3,1), with=FALSE])

或者仅使用 base R

 lst <- Map(seq, as.Date(df1$Start_Date, '%m/%d/%Y'), 
        as.Date(df1$End_Date, '%m/%d/%Y'), by='day') 
 lst <- lapply(lst, format, '%m/%d/%Y')
 table(unlist(lst), rep(df1$Patient_ID,lengths(lst)))
 #            a b c d
 # 01/01/2013 1 0 1 0
 # 01/02/2013 1 0 1 0
 # 01/03/2013 1 1 1 0
 # 01/04/2013 0 1 1 0
 # 01/05/2013 0 1 1 0
 # 01/06/2013 0 1 1 0
 # 01/07/2013 0 1 1 1
 # 01/08/2013 1 1 1 1
 # 01/09/2013 1 0 1 1
 # 01/10/2013 0 0 1 0

数据

 df1 <- structure(list(Patient_ID = c("a", "b", "c", "d", "a"), 
 Start_Date = c("1/1/2013", 
 "1/3/2013", "1/1/2013", "1/7/2013", "1/8/2013"), End_Date =
 c("1/3/2013",  
 "1/8/2013", "1/10/2013", "1/9/2013", "1/9/2013")), 
 .Names = c("Patient_ID", 
 "Start_Date", "End_Date"), class = "data.frame",
  row.names = c(NA, -5L))

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接