合并两个数据框列表

6
我有两个数据框的大列表需要合并。这是一些数据的样本。
list1 = list(data.frame(Wvlgth = c(337, 337.5, 338, 338.5, 339, 339.5),
            Global = c(".9923+00",".01245+00", ".0005+00", ".33421E+00", ".74361+00", ".129342+00"),
            group = c(0,0,0,0,0,0)),
            data.frame(Wvlgth = c(337, 337.5, 338, 338.5, 339, 339.5),
            Global = c(".1284+00",".0098+00", ".7853+00", ".2311+00", ".1211+00", ".75345+00"),
            group = c(1,1,1,1,1,1)))

list2 = list(data.frame(Wvlgth = c(337, 337.5, 338, 339),
                time = c("13.445","13.445", "13.445", "13.445"),
                IRD = c(.01324, .34565, .92395, .67489)),
                data.frame(Wvlgth = c(337, 337.5, 338, 339),
                time = c("13.45361","13.45361", "13.45361", "13.45361"),
                IRD = c(.20981, .98703, .54092, .38567)))

我想将list1中的每个数据框与list2中的每个数据框通过"Wvlgth"合并,得到如下结果:
Wvlgth    time      IRD        Global      group
337       13.445    0.01324    .9923+00        0
337.5     13.445    0.34565    .01245+00       0
338       13.445    0.92395    .0005+00        0
339       13.445    0.67489    .74361+00       0
337       13.45361  0.20981    .1284+00        1
337.5     13.45361  0.98703    .0098+00        1
338       13.45361  0.54092    .7853+00        1
338.5     13.45361  0.38567    .2311+00        1

我希望使用内连接,因为list1的数据框与list2的数据框行数不相同。
我尝试了从这个问题中使用dplyr的被接受的答案,但最终合并结果看起来很奇怪,我不确定发生了什么。它似乎是水平合并而不是垂直合并...?
> c(list1, list2) %>%
      Reduce(function(dtf1, dtf2) inner_join(dtf1, dtf2, by="Wvlgth"), .)

  Wvlgth  Global.x group.x Global.y group.y time.x   IRD.x   time.y
1  337.0  .9923+00       0 .1284+00       1 13.445 0.01324 13.45361
2  337.5 .01245+00       0 .0098+00       1 13.445 0.34565 13.45361
3  338.0  .0005+00       0 .7853+00       1 13.445 0.92395 13.45361
4  339.0 .74361+00       0 .1211+00       1 13.445 0.67489 13.45361
    IRD.y
1 0.20981
2 0.98703
3 0.54092
4 0.38567
2个回答

7

您可以同时循环遍历两个列表,并使用purrr包中的map2函数将每个元素进行连接。如果要返回单个数据框,而不是一个分别连接的数据框列表,可以使用map2_df函数。

library(purrr)
library(dplyr)

map2_df(list1, list2, inner_join, by = "Wvlgth")

  Wvlgth    Global group     time     IRD
1  337.0  .9923+00     0   13.445 0.01324
2  337.5 .01245+00     0   13.445 0.34565
3  338.0  .0005+00     0   13.445 0.92395
4  339.0 .74361+00     0   13.445 0.67489
5  337.0  .1284+00     1 13.45361 0.20981
6  337.5  .0098+00     1 13.45361 0.98703
7  338.0  .7853+00     1 13.45361 0.54092
8  339.0  .1211+00     1 13.45361 0.38567

这看起来很棒!谢谢你! - ale19

2
在基本的R语言中,你可以把Map的输出结果传递给do.call / rbind函数。
do.call(rbind, Map(merge, list1, list2, by="Wvlgth"))
  Wvlgth    Global group     time     IRD
1  337.0  .9923+00     0   13.445 0.01324
2  337.5 .01245+00     0   13.445 0.34565
3  338.0  .0005+00     0   13.445 0.92395
4  339.0 .74361+00     0   13.445 0.67489
5  337.0  .1284+00     1 13.45361 0.20981
6  337.5  .0098+00     1 13.45361 0.98703
7  338.0  .7853+00     1 13.45361 0.54092
8  339.0  .1211+00     1 13.45361 0.38567

Map函数将两个列表中相应的数据框合并,并返回一个数据框列表。然后使用do.callrbind函数将这些数据框串联起来。

如果数据集特别大,可以使用data.table中的rbindlist函数进行串联:

library(data.table)
rbindlist(Map(merge, list1, list2, by="Wvlgth"))

该函数返回一个data.table对象。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接