在R中的一个面板中，基于另一个数据框创建滞后向量

Question

在R中的一个面板中，基于另一个数据框创建滞后向量

6

我有两个数据框，一个是事件数据，另一个是几家公司（这里仅为两家）的股票数据。我希望在我的事件数据框中为两家公司添加两个附加列，分别是前一天和后一天的日期。这些滞后日期当然应该来自我的股票数据框（df）。我该怎么做？

DATE <- c("01.01.2000","02.01.2000","03.01.2000","06.01.2000","07.01.2000","09.01.2000","10.01.2000","01.01.2000","02.01.2000","04.01.2000","06.01.2000","07.01.2000","09.01.2000","10.01.2000")
RET <- c(-2.0,1.1,3,1.4,-0.2, 0.6, 0.1, -0.21, -1.2, 0.9, 0.3, -0.1,0.3,-0.12)
COMP <- c("A","A","A","A","A","A","A","B","B","B","B","B","B","B")
df <- data.frame(DATE, RET, COMP)

df

# DATE   RET COMP
# 1  01.01.2000 -2.00    A
# 2  02.01.2000  1.10    A
# 3  03.01.2000  3.00    A
# 4  06.01.2000  1.40    A
# 5  07.01.2000 -0.20    A
# 6  09.01.2000  0.60    A
# 7  10.01.2000  0.10    A
# 8  01.01.2000 -0.21    B
# 9  02.01.2000 -1.20    B
# 10 04.01.2000  0.90    B
# 11 06.01.2000  0.30    B
# 12 07.01.2000 -0.10    B
# 13 09.01.2000  0.30    B
# 14 10.01.2000 -0.12    B

DATE <- c("02.01.2000","03.01.2000","06.01.2000","09.01.2000","06.01.2000","07.01.2000","09.01.2000")
ARTICLE <- c("blabla11", "blabla12","blabla13","blabla14","blabla21","blabla22","blabla23")
COMP <- c("A","A","A","A","B","B","B")

event <- data.frame(DATE, ARTICLE, COMP)

event

#         DATE  ARTICLE COMP
# 1 02.01.2000 blabla11    A
# 2 03.01.2000 blabla12    A
# 3 06.01.2000 blabla13    A
# 4 09.01.2000 blabla14    A
# 5 06.01.2000 blabla21    B
# 6 07.01.2000 blabla22    B
# 7 09.01.2000 blabla23    B

输出应该是我的数据框事件，其中包括两个额外的列DATEm1和DATEp1。

#         DATE      DATEm1      DATEp1   ARTICLE COMP
# 1 02.01.2000  01.01.2000  03.01.2000  blabla11    A
# 2 03.01.2000  02.01.2000  06.01.2000  blabla12    A
# 3 06.01.2000  03.01.2000  07.01.2000  blabla13    A
# 4 09.01.2000  07.01.2000  10.01.2000  blabla14    A
# 5 06.01.2000  04.01.2000  07.01.2000  blabla21    B
# 6 07.01.2000  06.01.2000  09.01.2000  blabla22    B
# 7 09.01.2000  07.01.2000  10.01.2000  blabla23    B

我尝试了G. Grothendieck回答中的方法，对于这个例子来说效果非常好。

问题是，我的原始数据框包含的数据比这个例子要多得多，sqldf方法相当缓慢并且使用了很多内存（对于我的机器来说太多了）。有没有其他解决方案？

- cptn

@Arun 我更新了我的答案，猜测一个更大的数据集可能是什么样子。请参见下面的额外基准测试和时间/内存分析。不用担心，你的方法仍然排名第一 ;) WP! - rbatt

4个回答

4

这可以通过在sqldf中进行三重连接来完成：

library(sqldf)

# ensure that dates sort correctly by converting to yyyy-mm-dd
df2 <- transform(df, DATE = format(as.Date(DATE, "%m.%d.%Y")))
event2 <- transform(event, DATE = format(as.Date(DATE, "%m.%d.%Y")))

result <- sqldf(c("create index i on df2(COMP, DATE)",
      "select 
          event.DATE, 
          max(A.DATE) DATEm1, 
          min(B.DATE) DATEp1, 
          event.ARTICLE, 
          event.COMP
       from event2 event, main.df2 A, main.df2 B 
       on event.COMP = A.COMP and event.COMP = B.COMP
          and event.DATE > A.DATE and event.DATE < B.DATE
       group by event.DATE, event.COMP
       order by event.COMP, event.DATE"))

提供：

> result
        DATE     DATEm1     DATEp1  ARTICLE COMP
1 2000-02-01 2000-01-01 2000-03-01 blabla11    A
2 2000-03-01 2000-02-01 2000-06-01 blabla12    A
3 2000-06-01 2000-03-01 2000-07-01 blabla13    A
4 2000-09-01 2000-07-01 2000-10-01 blabla14    A
5 2000-06-01 2000-04-01 2000-07-01 blabla21    B
6 2000-07-01 2000-06-01 2000-09-01 blabla22    B
7 2000-09-01 2000-07-01 2000-10-01 blabla23    B

- G. Grothendieck

@ G. Grothendieck：感谢您的回答！这是一个有趣的方法！但是我的原始数据框包含大约1000家公司的数据，因此实现max（A.DATE）和max（B.DATE）很困难。您有解决该问题的想法吗？ - cptn

我已经修改了它，添加了一个索引以加快速度。 - G. Grothendieck

4

library(data.table) # loading data.table pckg
tempdf <- data.table(df, key = c("COMP", "DATE")) # Sorting df 
DATEVEC <- tempdf$DATE # Creating DATE vector to choose from
Key <- paste(DATEVEC, tempdf$COMP) # Creating Key vector for matching
setDT(event)[order(COMP, DATE), `:=`(
  DATEm1 = DATEVEC[match(paste(DATE, COMP), Key) - 1], 
  DATEp1 = DATEVEC[match(paste(DATE, COMP), Key) + 1]
)]
event
#          DATE  ARTICLE COMP     DATEm1     DATEp1
# 1: 02.01.2000 blabla11    A 01.01.2000 03.01.2000
# 2: 03.01.2000 blabla12    A 02.01.2000 06.01.2000
# 3: 06.01.2000 blabla13    A 03.01.2000 07.01.2000
# 4: 09.01.2000 blabla14    A 07.01.2000 10.01.2000
# 5: 06.01.2000 blabla21    B 04.01.2000 07.01.2000
# 6: 07.01.2000 blabla22    B 06.01.2000 09.01.2000
# 7: 09.01.2000 blabla23    B 07.01.2000 10.01.2000

另一种方式

tempdf <- data.table(df, key = c("COMP", "DATE")) # Sorting df  
DATEVEC <- tempdf$DATE # Creating DATE vector to choose from
Keydf <- paste(DATEVEC, tempdf$COMP) # Creating Key vector for matching
event <- data.table(event, key = c("COMP", "DATE")) # Sorting event  
event$Keyev <- paste(event$DATE, event$COMP) # Creating Key vector for matching
event[, `:=`(
  DATEm1 = DATEVEC[match(Keyev, Keydf) - 1], 
  DATEp1 = DATEVEC[match(Keyev, Keydf) + 1]
)]
event
#          DATE  ARTICLE COMP        Keyev     DATEm1     DATEp1
# 1: 02.01.2000 blabla11    A 02.01.2000 A 01.01.2000 03.01.2000
# 2: 03.01.2000 blabla12    A 03.01.2000 A 02.01.2000 06.01.2000
# 3: 06.01.2000 blabla13    A 06.01.2000 A 03.01.2000 07.01.2000
# 4: 09.01.2000 blabla14    A 09.01.2000 A 07.01.2000 10.01.2000
# 5: 06.01.2000 blabla21    B 06.01.2000 B 04.01.2000 07.01.2000
# 6: 07.01.2000 blabla22    B 07.01.2000 B 06.01.2000 09.01.2000
# 7: 09.01.2000 blabla23    B 09.01.2000 B 07.01.2000 10.01.2000

第三种方法

setDT(df) # Making df adata.table  
setkey(df, COMP, DATE) # Sorting df
DATEVEC <- df$DATE # Creating DATE vector to choose from
Keydf <- paste(DATEVEC, df$COMP) # Creating Key vector for matching
setDT(event) # Making event a data.table
setkey(event, COMP, DATE) # Sorting event
event$Keyev <- paste(event$DATE, event$COMP) # Creating Key vector for matching
event[, `:=`(
  DATEm1 = DATEVEC[match(Keyev, Keydf) - 1], 
  DATEp1 = DATEVEC[match(Keyev, Keydf) + 1]
)]
event

#          DATE  ARTICLE COMP        Keyev     DATEm1     DATEp1
# 1: 02.01.2000 blabla11    A 02.01.2000 A 01.01.2000 03.01.2000
# 2: 03.01.2000 blabla12    A 03.01.2000 A 02.01.2000 06.01.2000
# 3: 06.01.2000 blabla13    A 06.01.2000 A 03.01.2000 07.01.2000
# 4: 09.01.2000 blabla14    A 09.01.2000 A 07.01.2000 10.01.2000
# 5: 06.01.2000 blabla21    B 06.01.2000 B 04.01.2000 07.01.2000
# 6: 07.01.2000 blabla22    B 07.01.2000 B 06.01.2000 09.01.2000
# 7: 09.01.2000 blabla23    B 09.01.2000 B 07.01.2000 10.01.2000

- David Arenburg

4

这里有另一种使用data.table的方法：

首先，我们将df和event转换为data.table。这里我会使用as.data.table(.)。但如果您不想复制，可以使用setDT。也就是说，通过执行setDT(df)，df将被引用修改为data.table。

require(data.table) ## >= 1.9.2
dt1 = as.data.table(df)
dt2 = as.data.table(event)

然后我们将按以下方式准备数据：

key_cols = c("COMP", "DATE")
setcolorder(dt2, c(key_cols, setdiff(names(dt2), key_cols)))
setkeyv(dt1, key_cols)

setcolorder函数可以重排你的data.table中的列。 setkeyv 函数按升序对给定的列排序，并将这些列标记为dt1的关键列。

在此处，列重新排序非常重要，因为我们没有在dt2上设置关键字（因为这可能不是您想要的结果）。由于dt2没有设置关键字，因此data.table从dt2中取前n(=2)列来与dt1的关键列进行匹配。

需要注意的是，使用data.table进行连接x[i]绝对需要在x上设置关键字，这里x=dt1。在i上设置key是可选的，具体取决于是否希望保留顺序。

现在，我们执行两次连接并获得相应的匹配索引：

idx1 = dt1[dt2, which=TRUE, mult="first"]-1L
idx2 = dt1[dt2, which=TRUE, mult="last"]+1L

第一个连接获取了dt1中每个与dt2匹配的位置中，第一个匹配的位置。同样，第二个连接获取了dt1中每个与dt2匹配的位置中，最后一个匹配的位置。我们添加-1和+1来分别获得前一个和后一个索引。

需要注意一个特殊情况：

idx1[idx1 == 0L] = NA

当匹配索引是1时，减去它将得到0。由于R在0索引上的行为，我们必须在这里明确地用NA替换它。

现在，我们可以通过引用对日期进行子集，并将其添加到dt2中，如下所示：

dt2[, `:=`(DATEm1 = dt1$DATE[idx1], 
           DATEp1 = dt1$DATE[idx2]
  )]

#    COMP       DATE  ARTICLE     DATEm1     DATEp1
# 1:    A 02.01.2000 blabla11 01.01.2000 03.01.2000
# 2:    A 03.01.2000 blabla12 02.01.2000 06.01.2000
# 3:    A 06.01.2000 blabla13 03.01.2000 07.01.2000
# 4:    A 09.01.2000 blabla14 07.01.2000 10.01.2000
# 5:    B 06.01.2000 blabla21 04.01.2000 07.01.2000
# 6:    B 07.01.2000 blabla22 06.01.2000 09.01.2000
# 7:    B 09.01.2000 blabla23 07.01.2000 10.01.2000

- Arun

我认为创建idx1和idx2可能会有点浪费内存，因为您没有“原地”更改dt1（请原谅我的术语）。我的新测试数据集是否不够大以捕获此（潜在的）低效性，低效性不存在（？！），还是我的方法中的低效性只是使创建idx1和idx2的低效性相形见绌？有什么想法吗？ - rbatt

我的想法是 object.size(idx1)!=0，并且 idx1 中的信息也包含在 dt1 中（最终），因此内存效率的大小为 object.size(idx1) + object.size(idx2)。这就是我的想法。 - rbatt

1

无论如何都无法避免这种情况。在正常的连接中，idx总是会被计算。通过使用which=TRUE，我只需在获取索引并返回它后立即停止。 - Arun

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- rbatt · Accepted Answer

我尝试了一种使用embed和data.table的方法。使用提供的示例数据进行测试时，它与其他data.table方法相比具有竞争力（请参见下面的基准测试），但仍然稍慢一些。当扩展到其他滞后时，embed方法可能会更快，但我不确定这是否相关。

无论如何，我整理了答案（截至目前），并比较了时间和输出。我不知道精确的输出对您有多大影响（例如，我在基准测试中失去了一些时间，因为我必须转储RET列），但请注意，不同的答案在输出格式/内容上略有不同。所有方法都提供类似于所需输出格式的结果。

我想知道不同的方法是否针对不同大小的数据框按比例缩放...如果您测试了这些方法，我很想知道哪个对您和您的数据最快！ :)

数据和库

library("data.table")
library("sqldf")
library("microbenchmark")

# ========
# = Data =
# ========
DATE <- c("01.01.2000", "02.01.2000", "03.01.2000", "06.01.2000", "07.01.2000", "09.01.2000", "10.01.2000", "01.01.2000", "02.01.2000", "04.01.2000", "06.01.2000", "07.01.2000", "09.01.2000", "10.01.2000")
RET <- c(-2.0,1.1,3,1.4,-0.2, 0.6, 0.1, -0.21, -1.2, 0.9, 0.3, -0.1,0.3,-0.12)
COMP <- c("A","A","A","A","A","A","A","B","B","B","B","B","B","B")
df0 <- data.frame(DATE, RET, COMP)

DATE <- c("02.01.2000","03.01.2000","06.01.2000","09.01.2000","06.01.2000","07.01.2000","09.01.2000")
ARTICLE <- c("blabla11", "blabla12","blabla13","blabla14","blabla21","blabla22","blabla23")
COMP <- c("A","A","A","A","B","B","B")
event0 <- data.frame(DATE, ARTICLE, COMP)

rbatt（本回答）

# ==================
# = rbatt function =
# ==================
# Devations from desired format: 
#  1) column order (COMP is first instead of last, otherwise correct order)
m2l <- function(x) split(x, rep(1:ncol(x), each = nrow(x))) # Thanks to https://dev59.com/WGw15IYBdhLWcg3wG4EJ#6823557
e2 <- function(x, d=1) m2l(rbind(matrix(NA, ncol=d, nrow=d-1), embed(x,d)))
testRB <- function(df=df0, event=event0){
    dt1 <- as.data.table(df)
    dt1[,DATE:=as.character(DATE)]
    dt1[,c("DATEp1","DATE","DATEm1"):=e2(DATE,3),by=COMP]
    dt1[,RET:=NULL]
    setkey(dt1, COMP, DATE, DATEp1, DATEm1)

    dt2 <- as.data.table(event)
    dt2[,DATE:=as.character(DATE)]
    setkey(dt2,COMP,DATE)

    # below is slightly slower than doing dt1[,RET:=NULL] then  dt <- dt1[dt2]
    # dt <- dt1[dt2, list(DATEp1, DATEm1, ARTICLE)] # join 

    dt <- dt1[dt2]
    dt
}

rbatt 输出：

#   COMP       DATE     DATEp1     DATEm1  ARTICLE
#1:    A 02.01.2000 03.01.2000 01.01.2000 blabla11
#2:    A 03.01.2000 06.01.2000 02.01.2000 blabla12
#3:    A 06.01.2000 07.01.2000 03.01.2000 blabla13
#4:    A 09.01.2000 10.01.2000 07.01.2000 blabla14
#5:    B 06.01.2000 07.01.2000 04.01.2000 blabla21
#6:    B 07.01.2000 09.01.2000 06.01.2000 blabla22
#7:    B 09.01.2000 10.01.2000 07.01.2000 blabla23

DA答案

编辑 - DA优化 #1 (旧代码已注释)

编辑 - DA优化 #2 (旧代码已注释，版本标记)

# ===========================
# = David Arenburg function =
# ===========================
# https://dev59.com/H3_aa4cB1Zd3GeqP1Eg-#23483865
# Devations from desired format:
#  1) column order

~~# 2) DATE、DATEm1、DATEp1 的格式~~

testDA <- function(df=df0, event=event0){
    # Original DA below:
    # df$DATE <- as.Date(strptime(as.character(df$DATE), format = "%m.%d.%Y"))
    # event$DATE <- as.Date(strptime(as.character(event$DATE), format = "%m.%d.%Y"))
    # 
    # ## Making sure "df" is sorted. If your data sets are already ordered you can skip the ordering both here and in the `setDT`
    # df <- df[order(df$COMP, df$DATE), ]
    # 
    # library(data.table)
    # DT <- setDT(event)[order(COMP, DATE), list(
    #                     DATEm1 = df[match(DATE, df$DATE) - 1, "DATE"], 
    #                     DATEp1 = df[match(DATE, df$DATE) + 1, "DATE"]
    #                     ), by = c("ARTICLE", "DATE", "COMP")]
    # DT

    # Optimization #1:
    # event$DATE <- as.character(event$DATE) # converting event$DATE to character (if it is already a character, better to skip this part)
    # tempdf <- as.character(data.table(df, key = c("COMP", "DATE"))$DATE) # sorting and conerting df$DATE to character too so they will match
    # setDT(event)[order(COMP, DATE), `:=` (
    #   DATEm1 = tempdf[match(DATE, tempdf) - 1], 
    #   DATEp1 = tempdf[match(DATE, tempdf) + 1]
    # ), by = c("DATE", "COMP")]
    # event

    # Optimization #2
    # library(data.table) # loading data.table pckg
    tempdf <- data.table(df, key = c("COMP", "DATE"))$DATE # sorting df and taking only the dates for speed
    setDT(event)[order(COMP, DATE), `:=` (
      DATEm1 = tempdf[match(DATE, tempdf) - 1], 
      DATEp1 = tempdf[match(DATE, tempdf) + 1]
    )]
    event
}

David Arenburg输出：

经过DA优化#1进行编辑（#2可能存在错误）

注意第7行列“DATEm1”中的错误内容，月份应为04

# > testDA()
#          DATE  ARTICLE COMP     DATEm1     DATEp1
# 1: 02.01.2000 blabla11    A 01.01.2000 03.01.2000
# 2: 03.01.2000 blabla12    A 02.01.2000 06.01.2000
# 3: 06.01.2000 blabla13    A 03.01.2000 07.01.2000
# 4: 09.01.2000 blabla14    A 07.01.2000 10.01.2000
# 5: 06.01.2000 blabla21    B 03.01.2000 07.01.2000
# 6: 07.01.2000 blabla22    B 06.01.2000 09.01.2000
# 7: 09.01.2000 blabla23    B 07.01.2000 10.01.2000

GG Answer

# ============================
# = G. Grothendieck function =
# ============================
# https://dev59.com/H3_aa4cB1Zd3GeqP1Eg-#23415033
# Deviations from desired format:
#  1) format of DATE, DATEm1, DATEp1
testGG <- function(df=df0, event=event0){
    # ensure that dates sort correctly by converting to yyyy-mm-dd
    df2 <- transform(df, DATE = format(as.Date(DATE, "%m.%d.%Y")))
    event2 <- transform(event, DATE = format(as.Date(DATE, "%m.%d.%Y")))

    result <- sqldf(c("create index i on df2(COMP, DATE)",
          "select 
              event.DATE, 
              max(A.DATE) DATEm1, 
              min(B.DATE) DATEp1, 
              event.ARTICLE, 
              event.COMP
           from event2 event, main.df2 A, main.df2 B 
           on event.COMP = A.COMP and event.COMP = B.COMP
              and event.DATE > A.DATE and event.DATE < B.DATE
           group by event.DATE, event.COMP
           order by event.COMP, event.DATE"))
    result
}

GG输出：

#         DATE     DATEm1     DATEp1  ARTICLE COMP
# 1 2000-02-01 2000-01-01 2000-03-01 blabla11    A
# 2 2000-03-01 2000-02-01 2000-06-01 blabla12    A
# 3 2000-06-01 2000-03-01 2000-07-01 blabla13    A
# 4 2000-09-01 2000-07-01 2000-10-01 blabla14    A
# 5 2000-06-01 2000-04-01 2000-07-01 blabla21    B
# 6 2000-07-01 2000-06-01 2000-09-01 blabla22    B
# 7 2000-09-01 2000-07-01 2000-10-01 blabla23    B

Arun answer

# =================
# = Arun function =
# =================
# https://dev59.com/H3_aa4cB1Zd3GeqP1Eg-#23484292
# Deviations from desired format:
#  1) Column order (COMP first, ARTICLE does not come after DATEm1)
testAR <- function(df=df0, event=event0){
    dt1 = as.data.table(df)
    dt2 = as.data.table(event)

    key_cols = c("COMP", "DATE")
    setcolorder(dt2, c(key_cols, setdiff(names(dt2), key_cols)))
    setkeyv(dt1, key_cols)

    idx1 = dt1[dt2, which=TRUE, mult="first"]-1L
    idx2 = dt1[dt2, which=TRUE, mult="last"]+1L

    idx1[idx1 == 0L] = NA

    dt2[, `:=`(DATEm1 = dt1$DATE[idx1], 
               DATEp1 = dt1$DATE[idx2]
      )]

    dt2
}

Arun的输出：

#    COMP       DATE  ARTICLE     DATEm1     DATEp1
# 1:    A 02.01.2000 blabla11 01.01.2000 03.01.2000
# 2:    A 03.01.2000 blabla12 02.01.2000 06.01.2000
# 3:    A 06.01.2000 blabla13 03.01.2000 07.01.2000
# 4:    A 09.01.2000 blabla14 07.01.2000 10.01.2000
# 5:    B 06.01.2000 blabla21 04.01.2000 07.01.2000
# 6:    B 07.01.2000 blabla22 06.01.2000 09.01.2000
# 7:    B 09.01.2000 blabla23 07.01.2000 10.01.2000

基准测试

编辑 - 请注意，这是原始基准测试（原始代码，原始 OP 数据集）

# =============
# = Benchmark =
# =============
microbenchmark(testAR(), testDA(), testRB(), testGG())

# Unit: milliseconds
#      expr       min        lq    median        uq       max neval
#  testAR()  3.220278  3.414430  3.509251  3.626438  7.209494   100
#  testDA()  4.273542  4.471227  4.569370  4.752857  6.460922   100
#  testRB()  5.704559  5.981680  6.135946  6.457392 14.309858   100
#  testGG() 22.337065 23.064494 23.964581 24.622467 50.934712   100

修改：更大数据集的基准测试

请注意，我在此基准测试中删除了testGG（），因为它要慢得多（我对几个中间数据集进行了一些测试，并且tetGG（）比其他三种方法的扩展性差）。

# ========
# = Data =
# ========
mos <- c("01","02","03","06","07","09","10", "01", "02", "04", "06", "07", "09", "10")
yrs <- 1920:2020
DATE <- paste(mos, "01", rep(yrs, each=length(mos)), sep=".")
RET <- rep(c(-2.0,1.1,3,1.4,-0.2, 0.6, 0.1, -0.21, -1.2, 0.9, 0.3, -0.1,0.3,-0.12), length(yrs))
COMP <- rep(c("A","A","A","A","A","A","A","B","B","B","B","B","B","B"), length(yrs))
df0 <- data.frame(DATE, RET, COMP)

mos2 <- c("02","03","06","09","06","07","09")
DATE <- paste(mos2, "01", rep(yrs, each=length(mos2)), sep=".")
ARTICLE <- rep(c("blabla11", "blabla12","blabla13","blabla14","blabla21","blabla22","blabla23"), length(yrs))
COMP <- rep(c("A","A","A","A","B","B","B"), length(yrs))
event0 <- data.frame(DATE, ARTICLE, COMP)

编辑 - 大型数据集的原始基准测试：

# > microbenchmark(testAR(), testDA(), testRB(), times=100)
# Unit: milliseconds
#      expr        min         lq     median         uq        max neval
#  testAR()   3.458217   3.696698   3.934349   4.697033   6.584214   100
#  testDA() 143.180409 148.916461 151.776002 155.219515 237.524369   100
#  testRB()   7.279168   7.636102   8.073778   8.828537  11.143111   100

编辑 - DA 优化后大数据集的基准测试＃1：

# > microbenchmark(testAR(), testDA(), testRB(), times=100)
# Unit: milliseconds
#      expr       min        lq    median        uq      max neval
#  testAR()  3.198266  3.440739  3.605723  3.788199 22.52867   100
#  testDA() 56.290346 59.528819 60.821921 64.580825 80.99480   100
#  testRB()  6.763570  7.200741  7.400343  7.748849 20.97527   100

编辑- DA 优化后大数据集的基准测试 #2:

注 - 来自 testDA() 的更新 #2 警告：

# > microbenchmark(testAR(), testDA(), testRB(), times=100)
# Unit: milliseconds
#      expr      min       lq   median       uq      max neval
#  testAR() 3.423508 6.055584 6.246517 6.333444 7.653360   100
#  testDA() 2.665558 3.961070 4.062354 4.139571 8.427439   100
#  testRB() 6.421328 6.669137 6.877517 6.966977 8.271469   100
# There were 50 or more warnings (use warnings() to see the first 50)
# > warnings()[1]
# Warning message:
# In `[.data.table`(dt2, , `:=`(DATEm1 = dt1$DATE[idx1],  ... :
#   Invalid .internal.selfref detected and fixed by taking a copy of the whole table so that := can add this new column by reference. At an earlier point, this data.table has been copied by R (or been created manually using structure() or similar). Avoid key<-, names<- and attr<- which in R currently (and oddly) may copy the whole data.table. Use set* syntax instead to avoid copying: ?set, ?setnames and ?setattr. Also, in R<=v3.0.2, list(DT1,DT2) copied the entire DT1 and DT2 (R's list() used to copy named objects); please upgrade to R>v3.0.2 if that is biting. If this message doesn't help, please report to datatable-help so the root cause can be fixed.

对大数据集进行内存和时间分析，每次迭代50次

代码分析

Rprof("testAR.out", memory.profiling=TRUE)
for(i in 1:50){
    arAns <- testAR()
}
Rprof(NULL)

Rprof("testDA.out", memory.profiling=TRUE)
for(i in 1:50){
    daAns <- testDA()
}
Rprof(NULL)

Rprof("testRB.out", memory.profiling=TRUE)
for(i in 1:50){
    rbAns <- testRB()
}
Rprof(NULL)

testAR() 个人资料结果

# > summaryRprof("testAR.out", memory="both")$by.self
#                   self.time self.pct total.time total.pct mem.total
# "[["                   0.02       10       0.06        30       8.3
# "head"                 0.02       10       0.04        20      12.1
# "nrow"                 0.02       10       0.04        20      10.6
# ".Call"                0.02       10       0.02        10       8.2
# ".row_names_info"      0.02       10       0.02        10       8.4
# "<Anonymous>"          0.02       10       0.02        10       8.3
# "key"                  0.02       10       0.02        10       0.0
# "levels.default"       0.02       10       0.02        10       0.0
# "match"                0.02       10       0.02        10       0.0
# "stopifnot"            0.02       10       0.02        10       4.2

testDA() 的配置结果

# > summaryRprof("testDA.out", memory="both")$by.self
#                   self.time self.pct total.time total.pct mem.total
# "match"                2.04    26.56       2.34     30.47      94.2
# "[.data.frame"         1.78    23.18       6.50     84.64     295.3
# "NextMethod"           0.80    10.42       0.80     10.42      33.9
# "strptime"             0.42     5.47       0.46      5.99      25.9
# "["                    0.34     4.43       7.14     92.97     335.9
# "[.Date"               0.34     4.43       1.14     14.84      49.8
# "names"                0.34     4.43       0.34      4.43      17.9
# "%in%"                 0.28     3.65       1.44     18.75      50.3
# "dim"                  0.28     3.65       0.30      3.91      13.9
# "order"                0.16     2.08       0.18      2.34       1.7
# "$"                    0.16     2.08       0.16      2.08       7.0
# ".Call"                0.14     1.82       6.76     88.02     308.4
# "length"               0.14     1.82       0.14      1.82       4.6
# "sys.call"             0.14     1.82       0.14      1.82       5.6
# "<Anonymous>"          0.04     0.52       0.04      0.52       9.5
# "as.Date.POSIXlt"      0.04     0.52       0.04      0.52       3.4
# "getwd"                0.04     0.52       0.04      0.52       9.5
# "do.call"              0.02     0.26       0.18      2.34       1.7
# "assign"               0.02     0.26       0.04      0.52       0.1
# ".subset2"             0.02     0.26       0.02      0.26       6.1
# "all"                  0.02     0.26       0.02      0.26       0.0
# "file.info"            0.02     0.26       0.02      0.26       0.0
# "is.data.table"        0.02     0.26       0.02      0.26       0.0
# "lockBinding"          0.02     0.26       0.02      0.26       0.1
# "parent.frame"         0.02     0.26       0.02      0.26       0.0
# "pmatch"               0.02     0.26       0.02      0.26       0.0
# "which"                0.02     0.26       0.02      0.26       6.5

testRB（）配置文件结果

# > summaryRprof("testRB.out", memory="both")$by.self
#                 self.time self.pct total.time total.pct mem.total
# "sort.list"          0.04     9.52       0.06     14.29      21.5
# "length"             0.04     9.52       0.04      9.52       0.0
# "pmatch"             0.04     9.52       0.04      9.52      13.9
# "[.data.table"       0.02     4.76       0.42    100.00      71.8
# ".Call"              0.02     4.76       0.12     28.57      39.6
# "split.default"      0.02     4.76       0.10     23.81      32.9
# "alloc.col"          0.02     4.76       0.08     19.05      13.3
# "[["                 0.02     4.76       0.04      9.52       6.9
# "cedta"              0.02     4.76       0.04      9.52       0.0
# "lapply"             0.02     4.76       0.04      9.52       0.0
# "[[.data.frame"      0.02     4.76       0.02      4.76       6.9
# "as.character"       0.02     4.76       0.02      4.76       6.0
# "as.name"            0.02     4.76       0.02      4.76       5.3
# "attr"               0.02     4.76       0.02      4.76       0.0
# "exists"             0.02     4.76       0.02      4.76       0.0
# "FUN"                0.02     4.76       0.02      4.76       0.0
# "intersect"          0.02     4.76       0.02      4.76       6.5
# "is.data.table"      0.02     4.76       0.02      4.76       0.0

结论

就我所知，Arun的答案是最快且最节省内存的。与DA的答案相比，rbatt的答案在数据集大小方面更具可扩展性-我的初步猜测是使用POSIX或Date类的方法可能不会很好地扩展，但我不确定这个直觉是否得到了剖析结果的支持。如果有人认为提供完整的剖析结果而不仅仅是$by.self部分可能有帮助，我可以提供。

值得注意的是，各种方法所花费的时间和所使用的内存之间存在负相关关系-最快的方法使用的内存最少。