dplyr:如何通过名称选择连接列?

3
我想使用dplyr的left_join将一个数据框中的值(“new”)转移到另一个数据框中。如果我不知道关键字的名称,但只知道它是数据集中的第一个变量,我该如何做到这一点?
require("dplyr")

testData1 <- data.frame(idvar=c(1,2,3),
                    b=c("a","b","c"),
                    c=c("i","ii","iii"))

testData2 <- data.frame(identification=c(1,2),
                    b=c("a","b"),
                    c=c("i","NA"),
                    new=c("var1","var2"))

# now do a left join to obtain values of the new variable in the old dataset


(testResult1 <- left_join(testData1,testData2))
# var2 is not in the results because of the "NA" in testData2!


(testResult2 <- left_join(testData1,testData2,
                         by=c("idvar"="identification"))) 
# works as expected! ... but we do not know the name of the idvar!


(testResult3 <- left_join(testData1,testData2,
                         by=c(names(testData1)[1]=names(testData2)[1]))) 
# Error: unexpected '=' in:
#   "testResult3 <- left_join(testData1,testData2,
#                             by=c(names(testData1)[1]="

这是一个相关的问答链接:https://dev59.com/i14c5IYBdhLWcg3wQoY5 - talat
2个回答

3

另一个选择是使两个关键列具有相同的名称:

left_join(
    testData1,
    rename_at(testData2, 1, ~ names(testData1)[1]),
    by = names(testData1)[1]
)

#   idvar b.x c.x  b.y  c.y  new
# 1     1   a   i    a    i var1
# 2     2   b  ii    b   NA var2
# 3     3   c iii <NA> <NA> <NA>

# > (testResult2 <- left_join(testData1,testData2, by=c("idvar"="identification")))
#   idvar b.x c.x  b.y  c.y  new
# 1     1   a   i    a    i var1
# 2     2   b  ii    b   NA var2
# 3     3   c iii <NA> <NA> <NA>

2
您可以事先创建命名向量,然后按如下方式加入:
join_by = colnames(testData2)[1]
names(join_by)=colnames(testData1)[1]
left_join(testData1,testData2, by=join_by)

或者在一行中:

left_join(testData1,testData2, 
        by=structure(colnames(testData2)[1], names=colnames(testData1)[1]))

或者,如Artem所建议的那样:
left_join(testData1,testData2, 
               by=setNames(colnames(testData2)[1], colnames(testData1)[1]))

希望这能帮到您!

考虑使用 setNames( a, b ) 作为 structure( a, names = b ) 的简写。 - Artem Sokolov
谢谢,我已将其作为一个选项添加。在这里,setNames相比structure有什么优势? - Florian
除了需要更少的键入之外,“setNames”对于长向量也更有效率。 - Artem Sokolov

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接