合并两个列表中的数据框。

4
我有两个数据框列表。每个列表中的数据框都有一个具有相同名称和值的列。以下是示例:
x <- list(data.frame(i=as.character(1:5),x=rnorm(5),z=rnorm(5)),
          data.frame(i=as.character(1:5),x=rnorm(5),z=rnorm(5)))

y <- list(data.frame(i=as.character(5:1),x1=rnorm(5),z1=rnorm(5)),
          data.frame(i=as.character(5:1),x1=rnorm(5),z1=rnorm(5)))

我想将这两个列表合并成一个,使得新列表的每个元素都是一个数据框,包含以下列:i, x, z, x1, z1。也就是说,我想要一个由两个数据框组成的列表,每个数据框都有五行和上述提到的五列。我找不到解决方法(例如,找到如何在列表中连接dfs以形成一个df),我想使用lapply函数并传递merge(x,y, by= i)函数,但我不知道第一个参数(即使用的数据)应该是什么。
请注意,共同列中的值没有相同的顺序(在示例中它们是相反的,但在我的数据中它们是混合的)。如果您的解决方案需要首先排序该列,请告诉我。谢谢。
5个回答

4
library(tidyverse)
map2(x, y, ~left_join(.x, .y, by = 'i'))
#> [[1]]
#>   i          x         z         x1         z1
#> 1 1 -0.8773188  1.204293  1.2809946  0.9016632
#> 2 2 -0.4091583 -1.128325  0.7973242 -0.1010260
#> 3 3  1.3747095  0.784787 -1.6927698 -1.1568878
#> 4 4  0.7565917 -1.104594  1.0663122 -0.1439810
#> 5 5  0.9662782 -1.039493 -0.2620102 -0.4941850
#> 
#> [[2]]
#>   i         x          z         x1          z1
#> 1 1 0.7871544 -1.0974764  1.2926863  0.99399623
#> 2 2 1.3705341 -0.1047783  1.3612606 -0.01155390
#> 3 3 0.9984027 -0.2466980  0.4554107 -1.38307942
#> 4 4 0.7096952  0.7500738 -0.4586198  0.02311739
#> 5 5 0.1883204 -0.6399546  0.1496794 -0.43233764

它在baseR中的等价物

Map(function(.x, .y) merge(.x, .y, by = 'i'), x, y)
#> [[1]]
#>   i            x           z         x1         z1
#> 1 1  1.163081705  0.71855088  0.7981572  0.1029179
#> 2 2  0.876645119 -0.08615626  0.7299087  0.9782025
#> 3 3 -1.460452798 -0.14551233 -0.3380226 -1.1168602
#> 4 4 -0.004574267 -0.36117459  0.2183281 -0.9045827
#> 5 5 -0.836010524  0.12336598 -0.9046551 -0.2670896
#> 
#> [[2]]
#>   i          x          z          x1         z1
#> 1 1 -1.1605742  0.3233873 -0.16685367 -1.0579590
#> 2 2  1.5723944  0.5120253 -0.66373500  0.3241323
#> 3 3 -1.5562135  1.1251436  0.06805823 -2.2889400
#> 4 4  0.2782484  0.4134606 -0.11763939 -0.9060669
#> 5 5 -0.4821373 -0.7170258  0.72466946 -1.4457480

这篇文章是使用 reprex包 (v2.0.0)于2021-06-05创建的。


3

看起来这就是您想要的:

map2(x, y, ~ inner_join(.x, .y))

[[1]]
  i          x          z         x1         z1
1 1  0.7715183 -0.6933826 -0.3335239  0.5957587
2 2 -0.3824746 -0.7248827 -1.6736241 -1.2248904
3 3  0.3412777 -0.3711940  0.9334678  0.4043867
4 4 -0.4225862 -1.6653314  1.0369985  1.1808140
5 5  0.7468157  0.1704126 -0.1470796 -1.6237296

[[2]]
  i           x          z         x1          z1
1 1  0.69264103 -0.6640663 -0.2253319  0.26323254
2 2 -0.07861775  0.7914119  0.3725911  0.02854667
3 3 -0.86588724 -0.5519633 -1.5114177 -0.14283509
4 4  1.16069947  1.1299540 -0.4207173 -1.15829758
5 5  2.13867104 -0.9668079  0.1082068 -2.74714297

抱歉,kitu。我可能没有清楚表达我的期望结果。我的期望输出是一个包含两个数据框的列表。每个数据框都有5行和5列。 - Vasile
我改变了我的答案 :) - ktiu
kitu,它在我的示例上运行良好。但是在我的数据上却不行。这是代码和错误信息 final <- map2(results1, results2, ~ inner_join(.results1, .results2)) Error in inner_join(.results1, .results2) : object '.results1' not found > 我应该在inner_joint中使用.x和.y吗? - Vasile
是的,请尝试使用 map2(results1, results2, ~ inner_join(.x, .y)) - ktiu
非常好,亲爱的ktiu :) - Anoushiravan R

2

使用 data.table

library(data.table)
Map(function(u, v) setDT(u)[v, on = .(i)], x, y)

1
使用 {dplyr}{purrr}
purrr::map2(x, y, dplyr:::left_join, by = 'i')

0

我认为我们也可以使用以下解决方案:

library(purrr)

map2(x, y, ~ .x %>%  bind_cols(.y %>% select(-i)))

[[1]]
  i           x          z         x1         z1
1 1  0.17590858 -2.5917377 -0.5603591  0.5810495
2 2  0.03199955 -0.1387498 -0.5948580 -1.5914561
3 3 -1.51798345 -0.1991066  0.5550439  0.9111812
4 4  0.03178260  2.4638499 -1.1169747  0.6084738
5 5  2.41686436 -0.7952663  0.4207237  0.5133366

[[2]]
  i           x           z         x1         z1
1 1 -0.07731912 -0.08303112  1.2116506 -1.0381454
2 2 -0.88351320 -1.50888504  0.8762129  1.5319386
3 3 -0.04033662  0.48264589 -0.3644170 -1.3051433
4 4  0.81795108  0.22947344  0.7192894 -1.2796247
5 5  1.19298096  2.29746662  0.9020253  0.8600827

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接