较少人知道的字符串相似度度量方法

4
这可能是一个难以回答的问题,但我正在研究一些内容,想知道是否有“较少为人知”的字符串相似度算法(请参见此页面了解已知的示例)。我已经查看了维基百科,并且Sourceforge有一个很好的库称为Simmetrics,其中包含一堆字符串度量算法。是否有人进行过一些研究或发现某些字符串算法引起了您的注意,但又不常用呢?
谢谢。
4个回答

2
这个页面(LingPipe)提供了一些关于字符串比较的技巧。它讨论了Damerau-Levenstein距离、Needlman-Wunsch算法、Jaccard距离、Jaro-Winkler距离和TF/IDF距离等。距离被理解为两个字符串之间的相似度。
在页面末尾,它提供了参考资料,并提供了一个可以使用的Java实现(下载和许可证)。

1
还有一类音标算法(比如Soundex)也可能会添加到您的列表中。

1

0

SpSim(拼写相似度)是一种字符串相似度测量方法,旨在识别跨语言同源词(具有相同起源的单词)。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接