我希望基于相似性对文档进行聚类。
我已经尝试了 ssdeep(相似性哈希),速度非常快,但是有人告诉我 k-means 更快,flann 是所有实现中最快,而且更准确,所以我正在尝试使用具有 python 绑定的 flann,但我找不到任何关于如何在文本上执行它的示例(它只支持数字数组)。
我非常非常新手 (k-means, 自然语言处理)。我需要的是速度和准确性。
我的问题是:
- 我们可以使用 KMeans 进行文档相似性分组/聚类吗?(Flann 似乎不允许任何文本输入)
- 选择 Flann 是否正确?如果不是,请建议一种高性能库,支持文本/文档聚类,并具有 python 封装/API。
- k-means 是否是正确的算法?