我正在尝试在R中对两个数据集进行模糊逻辑连接:
- 第一个数据集包含位置名称和名为
config
的列 - 第二个数据集包含位置名称以及需要汇总后才能加入第一个数据集的两个额外属性。
我想使用name
列来连接这两个数据集。但是name
列可能在任一数据集中具有附加或前导字符,或者是包含在较大单词中的一个单词。例如,如果我们查看这两个数据集,我希望名称OPAL连接到OPALAS,SAUSALITO Y连接到SAUSALITO。
Dataset1:
Name Config
ALTO D BB
CONTRA ST
EIGHT A DD
OPALAS BB
SAUSALITO Y AA
SOLANO J ST
Dataset2:
Name Age Rank
ALTO D 50 2
ALTO D 20 6
CONTRA 10 10
CONTRA 15 15
EIGHTH 18 21
OPAL 19 4
SAUSALITO 2 12
SOLANO 34 43
对数据集2进行摘要的代码
Data2a <- summaryBy(Age ~ Name,FUN=c(mean), data=Data2,na.rm=TRUE)
Data2b <- summaryBy(Rank ~ Name,FUN=c(sum), data=Data2,na.rm=TRUE)
Data2 <- data.frame(Data2a$Name, Data2a$Age.mean, Data2b$Rank.sum)
Desired Outcome:
Name Config Age Rank
ALTO D BB 35 8
CONTRA ST 12.5 25
EIGHT A DD 18 21
OPALAS BB 19 4
SAUSALITO Y AA 12 5
SOLANO J ST 34 43
fuzzyjoin
软件包。 - yeedle