创建情感分析工具

3

我正在尝试创建一个情感分析工具,以分析有关曼彻斯特联足球俱乐部的推文在三天内是积极还是消极。目前,我正在使用这个指南作为参考(Java是我的编程语言)。

http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html

我正在使用Apache Flume将我的推文下载到Apache Hadoop中,然后打算使用Apache Hive查询这些推文。我可能还会使用Apache Oozie有效地对推文进行分区。
在我发布的链接中,提到需要一个训练数据集来训练我将创建的分类器以分析推文。提供的示例分类器有大约5000个推文。由于我正在为大学的暑期项目做这个,我觉得我应该创建自己的数据集。
最少需要多少条推文才能使分类器有效?是否有推荐的数量?例如,如果我手动分析了一百条、五百条或一千条推文,那么它是否有效?
2个回答

1

训练分类器没有确切的数字。您可以拥有一个大型数据集,其中所有数据具有相同的属性,因此您的分类器将记住模式,或者您可以拥有不太大的数据集,其中包含良好的实例,因此您的分类器将获得更好的结果。

您可以使用帖子中提供的样本数据集来训练分类器,并使用交叉验证以获得最佳分类器。

在获得最佳分类器之后,您可以将其与帖子中提供的分类器进行比较并选择更好的分类器。


这可能是一个愚蠢的问题,但所有的样本数据集大致相同吗?换句话说,如果我正在寻找关于推文的正面、负面和中性样本,那么主题是否重要,或者电影的样本数据集是否适用于足球? - Andrew Martin
我曾经处理过其他类型的分类问题,但我不知道如何对推文进行分类。希望有人能更详细地帮助你。 - Hernandcb

0

数据集都是不同的,它们的内容通常会随着时间的推移而发生(不可预测的)变化。有时候你会发现,只需要100个带注释的推文就足以达到非常好的性能,因为语言使用是统一的。有时候,数万条推文也不够。当你认为你的分类器很好的时候,两天过去了,人们谈论的话题和谈话方式发生了变化。那个分类器现在已经没用了。关于活跃学习和变化数据流的内容分析有大量的研究。这里这里是一些开始研究的论文。

附:如果可能的话,请使用现成的数据集。从个人经验来看,数据注释非常困难。推文非常乏味,看了一个小时后,你会犯很多错误并感到无聊。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接