适合情感分析的好数据集是什么?

16

我正在从事情感分析工作,使用的数据集在此链接中提供: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html 我将数据集分为50%的测试样本和50%的训练样本,并从训练样本中提取特征来使用 Weka 分类器进行分类。然而,我的预测精度约为70-75%。

有没有人能够建议其他数据集,可以帮助我提高结果-我已经使用了unigram, bigram和POStags作为我的特征。


你可以尝试访问 https://www.kaggle.com/data/36745#latest-205286。 - Seremonia
3个回答

26

获取情感分析数据集的途径有很多:

但这并不意味着它会帮助您获得更好的准确性,因为语料库可能与您的数据集非常不同。除了减少测试百分比与训练之外,您还可以:尝试其他分类器或使用半自动化包装器(如CVParameterSelection或GridSearch)微调所有超参数,甚至是auto-weka(如果适用)。

使用50/50非常罕见,80/20是一个常见的比例。更好的做法是使用:60%进行训练、20%进行交叉验证、20%进行测试。


正如你所说,如果我减少训练百分比,它会影响学习过程。这意味着从更少的样本中学习将很困难。另外,如果我增加训练百分比,它会导致过拟合...这就是为什么我选择了50:5的比例。 - user3512562
1
使用50/50的比例相当罕见,80/20是一种常见的比例。更好的做法是使用:60%用于训练,20%用于交叉验证,20%用于测试。 PS:我刚刚想起了谷歌的这个巨大的ngram数据集http://storage.googleapis.com/books/ngrams/books/datasetsv2.html - doxav
2
以下包含超过1,578,627个分类数据集 http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip 或者 http://ai.stanford.edu/~amaas/data/sentiment/ - Kheshav Sewnundun
https://www.kaggle.com/bittlingmayer/amazonreviews - Adam Bittlingmayer

3

0

2
虽然该链接可能回答了问题,但最好在此处包含答案的基本部分并提供参考链接。仅链接的答案如果链接页面发生更改,则可能无效。- [来自审查] (/ review / low-quality-posts / 19850041) - Ted Klein Bergman
如果我有机会的话,我会尝试在这里放置链接。 - Default picture

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接