文本情感检测数据集

28

我正在实现一个系统,可以检测文本中的人类情感。是否有手动注释的数据集可供监督学习和测试?

这里有一些有趣的数据集: https://dataturks.com/projects/trending


如果你在谈论情感检测/意见挖掘方面的话:是的,已经有许多共享任务了。我非常确定谷歌会找到其中一些。 - lenz
实际上并不是情感。我想要一个将单词分类为不同情绪的数据集。我尝试了谷歌,但没有找到一个好的数据集。 - ekka
你是否在寻找类似于,死亡:感觉(悲伤)出生:感觉(快乐)的东西? - Ankit Solanki
您可以在此处查看一些有趣的数据集:https://dataturks.com/projects/trending - NooB8374
以上的Dataturks链接无法使用。您能否指出更新后的链接? - jkr
1个回答

49
The field of textual emotion detection is still very new and the literature is fragmented in many different journals of different fields. Its really hard to get a good look on whats out there.
Note that there a several emotion theories psychology. Hence there a different ways of modeling/representing emotions in computing. Most of the times "emotion" refers to a phenomena such as anger, fear or joy. Other theories state that all emotions can be represented in a multi-dimensional space (so there is an infinite number of them).
Here are a some (publicly available) data sets I know of (updated):
  1. EmoBank. 一万个句子,标注了情感价值、唤起度和支配值(披露:我是其中之一的作者)。https://github.com/JULIELab/EmoBank

  2. 来自WASSA 2017共享任务的“推文中的情感强度”数据集。http://saifmohammad.com/WebPages/EmotionIntensity-SharedTask.html

  3. Preotiuc-Pietro等人的Facebook帖子的价值和唤起值: http://wwbp.org/downloads/public_data/dataset-fb-valence-arousal-anon.csv

  4. Cecilia Ovesdotter Alm的情感数据: http://people.rc.rit.edu/~coagla/affectdata/index.html

  5. CrowdFlower的文本情感数据集 https://www.crowdflower.com/wp-content/uploads/2016/07/text_emotion.csv

  6. ISEAR: http://emotion-research.net/toolbox/toolboxdatabase.2006-10-13.2581092615

  7. SemEval 2007测试语料库(情感文本任务) http://web.eecs.umich.edu/~mihalcea/downloads.html

  8. 带有情感倾向的SemEval立场数据的重新注释: http://www.ims.uni-stuttgart.de/data/ssec

If you want to go deeper into the topic, here are some surveys I recommend (disclosure: I authored the first one).
1. Buechel, S., & Hahn, U. (2016). Emotion Analysis as a Regression Problem — Dimensional Models and Their Implications on Emotion Representation and Metrical Evaluation. In ECAI 2016.22nd European Conference on Artificial Intelligence (pp. 1114–1122). The Hague, Netherlands (available: http://ebooks.iospress.nl/volumearticle/44864).
2. Canales, L., & Martínez-Barco, P. (n.d.). Emotion Detection from text: A Survey. Processing in the 5th Information Systems Research Working Days (JISIC 2014), 37 (available: http://www.aclweb.org/anthology/W14-6905).

3
另一个可能有用的资源是Saif Mohammad的情感语料库(哈希标签)(http://saifmohammad.com/WebDocs/Jan9-2012-tweets-clean.txt.zip)。有关数据的更多信息,请参见此页面(http://saifmohammad.com/WebPages/lexicons.html)。 - drevicko
@beuchel,你知道我可以用什么资源将你的EmoBank情感价值和唤起标签转换为标准情感标签吗?我想简单地使用轴值上的阈值,并将各个区域映射到不同的情感应该是可行的。但我似乎找不到应该用于阈值处理的值。 - Siddharth Kumar
1
@SiddharthKumar 我猜你可以使用任何机器学习技术来做到这一点。实际上,论文中描述了一个相关实验。 - buechel
1
@buechel 我本来打算这样做,但想问问专家是否有普遍认可的阈值来决定价值唤起平面中某个区域是否代表一种情感。关于一个分类器,它接收价值/唤醒向量并输出情感,我在哪里可以找到这个简单任务的训练数据?您的存储库提到一部分数据带有标准情感注释,但我似乎找不到该数据集。也许我漏掉了什么。 - Siddharth Kumar
@SiddharthKumar 我相信目前没有统一的门槛。毕竟,整个映射过程是最近的研究成果。我使用的数据集是来自 SemEval 2007 任务14的数据集。如果您需要引用,请查看论文。这是数据集的链接http://nlp.cs.swarthmore.edu/semeval/tasks/task14/data.shtml。 - buechel
2
我对@buechel的回答有几点评论:
  1. ISEAR在引用的网址上已不再提供。
  2. 我建议您查看论文“An Analysis of Annotated Corpora for Emotion Classification in Text”,以获取更多和更新的情感检测数据集:https://aclweb.org/anthology/C18-1179。
- revy

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接