Python数据挖掘

Question

Python数据挖掘

pythonnlpdata-mining

3

我不是很擅长数据挖掘，但我需要一些有关聚类的想法。让我先描述一下我的问题。

我有大约100个数据表，其中包含用户评论。我试图找到描述质量的词语。有人可以说它是惊人的质量，另一个人可以说很棒的质量，现在我必须将那些描述相似的句子聚类，并获取这些句子的频率。应该应用什么概念？

我猜我必须指定一些停用词和同义词。我对这个概念不太熟悉。

能否给我一些详细的链接或解释？以及要使用什么工具？我基本上是一个Python程序员，所以任何Python模块都会受到赞赏。

谢谢

- Rkz

我认为你手头有一个情感分析（意见挖掘）的任务。你应该查看有关情感分析的文本。刘冰的情感分析页面同时也要看一下nltk，它对你的任务非常有用。 - viper

3个回答

4

我会遵循CrossValidated上这个问题中的主要建议。特别是，看看scikit-learn。

- Shane

1

这里有两篇从评价文本中提取信息的论文。它们似乎正在做你想要做的事情。

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.91.9534

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.77.5392&rep=rep1&type=pdf

- user334856

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Andrey Sboev · Accepted Answer

对于语言处理，有http://www.nltk.org/这个库可供使用。使用此库，您可以将文本拆分成句子、计算词项频率、查找同义词等等。

Carrot^2是一个很好的开源项目，用于对文本片段进行聚类，但不幸的是它是用Java编写的。其聚类背后的思想是术语和短语（二元组和三元组）的频率。在预处理每个文档（片段、评论）后，将其表示为词项/短语频率的向量。为了计算群集，他们使用一些线性代数，在那些术语空间中找到主要组件。然后使用这些组件来形成群集，并为其命名标签。

在您的情况下，值得将评论视为文档，对它们进行聚类，并获得群集的标签。也许标签会在某种程度上评估评论。

在您的具体情况下，值得消除关注点的单词，从而大大降低维度，在这种任务中非常关键

另一个有用的项目是montylingua