我一直在使用它来完成一个项目,但其中一些结果不是我想要的。例如:
当“日期”与
- “州”比较时,它的lev距离为2
- “今天的日期”比较时,它的lev距离为9
这当然是我们从算法中预期的,但我想知道是否有任何东西可以给出更接近于源字符串("日期")的任何比较字符串的匹配。意思是,“今天的日期”会因为它包含“日期”而具有更高的排名。
如果您能找到一个实现此功能的.NET库,则可获得额外奖励分数。
我一直在使用它来完成一个项目,但其中一些结果不是我想要的。例如:
当“日期”与
这当然是我们从算法中预期的,但我想知道是否有任何东西可以给出更接近于源字符串("日期")的任何比较字符串的匹配。意思是,“今天的日期”会因为它包含“日期”而具有更高的排名。
如果您能找到一个实现此功能的.NET库,则可获得额外奖励分数。
我认为在使用Levenshtein之前,你应该对单词进行分词。另外,还有Jaro-Winker距离可以作为替代。
有一个.NET库SimMetrics似乎涵盖了几个替代方案。
a
在句子 b
中出现的可能性也是一样的。但正如我所说,这取决于您需要距离的目的。 - Johan Sjöberg