Python数据挖掘

3
我不是很擅长数据挖掘,但我需要一些有关聚类的想法。让我先描述一下我的问题。
我有大约100个数据表,其中包含用户评论。我试图找到描述质量的词语。有人可以说它是惊人的质量,另一个人可以说很棒的质量,现在我必须将那些描述相似的句子聚类,并获取这些句子的频率。应该应用什么概念?
我猜我必须指定一些停用词和同义词。我对这个概念不太熟悉。
能否给我一些详细的链接或解释?以及要使用什么工具?我基本上是一个Python程序员,所以任何Python模块都会受到赞赏。
谢谢

我认为你手头有一个情感分析(意见挖掘)的任务。你应该查看有关情感分析的文本。刘冰的情感分析页面同时也要看一下nltk,它对你的任务非常有用。 - viper
3个回答

4

对于语言处理,有http://www.nltk.org/这个库可供使用。使用此库,您可以将文本拆分成句子、计算词项频率、查找同义词等等。

Carrot^2是一个很好的开源项目,用于对文本片段进行聚类,但不幸的是它是用Java编写的。其聚类背后的思想是术语和短语(二元组和三元组)的频率。在预处理每个文档(片段、评论)后,将其表示为词项/短语频率的向量。为了计算群集,他们使用一些线性代数,在那些术语空间中找到主要组件。然后使用这些组件来形成群集,并为其命名标签。

在您的情况下,值得将评论视为文档,对它们进行聚类,并获得群集的标签。也许标签会在某种程度上评估评论。

在您的具体情况下,值得消除关注点的单词,从而大大降低维度,在这种任务中非常关键

另一个有用的项目是montylingua


4

1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接