我不是很擅长数据挖掘,但我需要一些有关聚类的想法。让我先描述一下我的问题。
我有大约100个数据表,其中包含用户评论。我试图找到描述质量的词语。有人可以说它是惊人的质量,另一个人可以说很棒的质量,现在我必须将那些描述相似的句子聚类,并获取这些句子的频率。应该应用什么概念?
我猜我必须指定一些停用词和同义词。我对这个概念不太熟悉。
能否给我一些详细的链接或解释?以及要使用什么工具?我基本上是一个Python程序员,所以任何Python模块都会受到赞赏。
谢谢
我有大约100个数据表,其中包含用户评论。我试图找到描述质量的词语。有人可以说它是惊人的质量,另一个人可以说很棒的质量,现在我必须将那些描述相似的句子聚类,并获取这些句子的频率。应该应用什么概念?
我猜我必须指定一些停用词和同义词。我对这个概念不太熟悉。
能否给我一些详细的链接或解释?以及要使用什么工具?我基本上是一个Python程序员,所以任何Python模块都会受到赞赏。
谢谢