这可能是一个难以回答的问题,但我正在研究一些内容,想知道是否有“较少为人知”的字符串相似度算法(请参见此页面了解已知的示例)。我已经查看了维基百科,并且Sourceforge有一个很好的库称为Simmetrics,其中包含一堆字符串度量算法。是否有人进行过一些研究或发现某些字符串算法引起了您的注意,但又不常用呢?谢谢。
这个页面(LingPipe)提供了一些关于字符串比较的技巧。它讨论了Damerau-Levenstein距离、Needlman-Wunsch算法、Jaccard距离、Jaro-Winkler距离和TF/IDF距离等。距离被理解为两个字符串之间的相似度。在页面末尾,它提供了参考资料,并提供了一个可以使用的Java实现(下载和许可证)。