适合情感分析的好数据集是什么？

Question

适合情感分析的好数据集是什么？

16

我正在从事情感分析工作，使用的数据集在此链接中提供: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html 我将数据集分为50%的测试样本和50%的训练样本，并从训练样本中提取特征来使用 Weka 分类器进行分类。然而，我的预测精度约为70-75%。

有没有人能够建议其他数据集，可以帮助我提高结果-我已经使用了unigram, bigram和POStags作为我的特征。

- user3512562

你可以尝试访问 https://www.kaggle.com/data/36745#latest-205286。 - Seremonia

3个回答

3

我开始将情感分析工具/数据集/词库聚集在了一个地方，这对你也可能有用：https://github.com/laugustyniak/awesome-sentiment-analysis。如果您想添加更多内容或与我联系，请发起PR。我曾经处理过亚马逊的大量评论数据。

- l.augustyniak

0

这里是一份数据集列表，其中包含了单词情感的信息。 http://positivewordsresearch.com/sentiment-analysis-resources/

- Default picture

2

虽然该链接可能回答了问题，但最好在此处包含答案的基本部分并提供参考链接。仅链接的答案如果链接页面发生更改，则可能无效。- [来自审查] (/ review / low-quality-posts / 19850041) - Ted Klein Bergman

如果我有机会的话，我会尝试在这里放置链接。 - Default picture

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- doxav · Accepted Answer

获取情感分析数据集的途径有很多：

谷歌的大型Ngrams数据集：storage.googleapis.com/books/ngrams/books/datasetsv2.html
http://www.sananalytics.com/lab/twitter-sentiment/
http://inclass.kaggle.com/c/si650winter11/data
http://nlp.stanford.edu/sentiment/treebank.html
或者您可以查看这个全球ML数据集存储库：https://archive.ics.uci.edu/ml

但这并不意味着它会帮助您获得更好的准确性，因为语料库可能与您的数据集非常不同。除了减少测试百分比与训练之外，您还可以：尝试其他分类器或使用半自动化包装器（如CVParameterSelection或GridSearch）微调所有超参数，甚至是auto-weka（如果适用）。

使用50/50非常罕见，80/20是一个常见的比例。更好的做法是使用：60%进行训练、20%进行交叉验证、20%进行测试。