I have two strings:
a <- "Roy lives in Japan and travels to Africa"
b <- "Roy travels Africa with this wife"
我想要计算这些字符串之间的共同单词数量。
答案应该是3。
"Roy"
"travels"
- "Africa"
这些都是共同单词。
以下是我的尝试:
stra <- as.data.frame(t(read.table(textConnection(a), sep = " ")))
strb <- as.data.frame(t(read.table(textConnection(b), sep = " ")))
避免重复计数的独特方法
stra_unique <-as.data.frame(unique(stra$V1))
strb_unique <- as.data.frame(unique(strb$V1))
colnames(stra_unique) <- c("V1")
colnames(strb_unique) <- c("V1")
common_words <-length(merge(stra_unique,strb_unique, by = "V1")$V1)
我需要为一个包含超过2000个和1200个字符串的数据集执行此操作。我需要评估字符串的总次数为2000 X 1200。有没有不使用循环的快速方法。
merge(stra, strb)
... - A5C1D2H2I1M1N2O1R2T1