我正在尝试利用k最近邻算法解决字符串相似性问题,即给定一个字符串和一个知识库,我想输出与我的给定字符串相似的k个字符串。是否有任何教程可以解释如何利用kd树来高效地进行这种字符串的k最近邻查找?字符串长度不会超过20个字符。
可能是我一年前读过的最热门的博客文章之一:Levenstein自动机。看看那篇文章吧。它不仅提供了算法的描述,还提供了可供参考的代码。从技术上讲,它不是kd-tree,但它与人们在实际应用中遇到/使用的字符串匹配和字典纠错算法密切相关。
他还有另一篇关于BK-trees的博客文章,这些树在模糊匹配字符串和查找包含拼写错误的字串时要好得多。这里有另一个包含源代码的资源,可以用来做BK-tree(这个我无法验证其准确性或正确实现)。
3
,那么请使用它,否则,您将不得不自行探索,恐怕我无能为力 :) - Matthieu M.