创建情感分析工具

Question

创建情感分析工具

javahadooptwitter4jsentiment-analysis

3

我正在尝试创建一个情感分析工具，以分析有关曼彻斯特联足球俱乐部的推文在三天内是积极还是消极。目前，我正在使用这个指南作为参考（Java是我的编程语言）。

http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html

我正在使用Apache Flume将我的推文下载到Apache Hadoop中，然后打算使用Apache Hive查询这些推文。我可能还会使用Apache Oozie有效地对推文进行分区。

在我发布的链接中，提到需要一个训练数据集来训练我将创建的分类器以分析推文。提供的示例分类器有大约5000个推文。由于我正在为大学的暑期项目做这个，我觉得我应该创建自己的数据集。

最少需要多少条推文才能使分类器有效？是否有推荐的数量？例如，如果我手动分析了一百条、五百条或一千条推文，那么它是否有效？

- Andrew Martin

2个回答

0

数据集都是不同的，它们的内容通常会随着时间的推移而发生（不可预测的）变化。有时候你会发现，只需要100个带注释的推文就足以达到非常好的性能，因为语言使用是统一的。有时候，数万条推文也不够。当你认为你的分类器很好的时候，两天过去了，人们谈论的话题和谈话方式发生了变化。那个分类器现在已经没用了。关于活跃学习和变化数据流的内容分析有大量的研究。这里和这里是一些开始研究的论文。

附：如果可能的话，请使用现成的数据集。从个人经验来看，数据注释非常困难。推文非常乏味，看了一个小时后，你会犯很多错误并感到无聊。

- mbatchkarov

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Hernandcb · Accepted Answer

训练分类器没有确切的数字。您可以拥有一个大型数据集，其中所有数据具有相同的属性，因此您的分类器将记住模式，或者您可以拥有不太大的数据集，其中包含良好的实例，因此您的分类器将获得更好的结果。

您可以使用帖子中提供的样本数据集来训练分类器，并使用交叉验证以获得最佳分类器。

在获得最佳分类器之后，您可以将其与帖子中提供的分类器进行比较并选择更好的分类器。