使用模糊逻辑连接两个数据集

12

我正在尝试在R中对两个数据集进行模糊逻辑连接:

  • 第一个数据集包含位置名称和名为config的列
  • 第二个数据集包含位置名称以及需要汇总后才能加入第一个数据集的两个额外属性。

我想使用name列来连接这两个数据集。但是name列可能在任一数据集中具有附加或前导字符,或者是包含在较大单词中的一个单词。例如,如果我们查看这两个数据集,我希望名称OPAL连接到OPALAS,SAUSALITO Y连接到SAUSALITO。

Dataset1:    
     Name           Config
     ALTO D         BB
     CONTRA         ST
     EIGHT A        DD
     OPALAS         BB
     SAUSALITO Y    AA
     SOLANO J       ST

Dataset2:    
    Name       Age     Rank
    ALTO D     50      2
    ALTO D     20      6
    CONTRA     10      10
    CONTRA     15      15
    EIGHTH     18      21
    OPAL       19      4
    SAUSALITO  2       12
    SOLANO     34      43

对数据集2进行摘要的代码

Data2a <- summaryBy(Age ~ Name,FUN=c(mean), data=Data2,na.rm=TRUE)
Data2b <- summaryBy(Rank ~ Name,FUN=c(sum), data=Data2,na.rm=TRUE)
Data2 <- data.frame(Data2a$Name, Data2a$Age.mean, Data2b$Rank.sum)

Desired Outcome:
    Name        Config  Age   Rank
    ALTO D      BB      35    8
    CONTRA      ST      12.5  25
    EIGHT A     DD      18    21
    OPALAS      BB      19    4
    SAUSALITO Y AA      12    5
    SOLANO J    ST      34    43

2
请查看fuzzyjoin软件包。 - yeedle
1个回答

12
我可以使用fuzzyjoin包将这两个数据集连接在一起:
library(fuzzyjoin)
stringdist_inner_join(Dataset1, Data2,
     by ="Name", distance_col = NULL)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接