我正在尝试对Twitter流进行聚类。我希望将每个推文放入一个关于相同话题的簇中。我尝试使用tf / idf和余弦相似度的在线聚类算法来聚类流,但我发现结果很糟糕。
使用tf / idf的主要缺点是它聚类关键字相似的文档,因此仅适用于识别几乎相同的文档。例如,请考虑以下句子:
1- 网站Stackoverflow很好。 2- Stackoverflow是一个网站。
由于它们共享许多关键字,上述两个句子很可能会在合理的阈值下被聚类在一起。但是现在请考虑以下两个句子:
1- 网站Stackoverflow很好。 2- 我经常访问Stackoverflow。
现在使用tf / idf,聚类算法将失败,因为它们仅共享一个关键字,尽管它们都谈论相同的主题。
我的问题是:是否有更好的文档聚类技术?