我在匹配字符字符串时遇到了麻烦,主要是缩写的问题。
我有两个字符向量。我试图将向量A中的单词(包括错别字)与向量B中最接近的匹配项匹配。
vec.a <- c("ce", "amer", "principl")
vec.b <- c("ceo", "american", "principal")
我首先尝试使用stringdist软件包模糊匹配命令进行翻译。然而,我的尝试有限。
amatch(vec.a, vec.b, maxDist = 3)
[1] 1 1 3
对于拼写错误,amatch/模糊匹配效果很好:此时ce -> ceo和principl -> principal。但缩写词会带来问题,amer应该与american匹配,但由于需要更少的排列组合才能匹配,ce成为更接近的匹配结果。
在存在缩写词的情况下如何处理模糊匹配?