我正在尝试创建一个情感分析工具,以分析有关曼彻斯特联足球俱乐部的推文在三天内是积极还是消极。目前,我正在使用这个指南作为参考(Java是我的编程语言)。
http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
我正在使用Apache Flume将我的推文下载到Apache Hadoop中,然后打算使用Apache Hive查询这些推文。我可能还会使用Apache Oozie有效地对推文进行分区。在我发布的链接中,提到需要一个训练数据集来训练我将创建的分类器以分析推文。提供的示例分类器有大约5000个推文。由于我正在为大学的暑期项目做这个,我觉得我应该创建自己的数据集。
最少需要多少条推文才能使分类器有效?是否有推荐的数量?例如,如果我手动分析了一百条、五百条或一千条推文,那么它是否有效?