情感分析词典

54

我想知道是否有人知道我可以获取正面和负面词汇的字典。 我正在研究情感分析,这是其中的一个关键部分。

9个回答

38

情感词典是匹兹堡大学的一个可能符合您需求的词典。它包含约8,000个具有积极/中性/消极情感的单词,此论文对其进行了更详细的描述,并在GPL下发布。



26

稍微晚了一点,我想指出字典在情感分析中的贡献是有限的。

一些带有情感色彩的句子不包含任何"情感"词 - 例如,"读这本书"可以在书评中是积极的,但在电影评论中则是消极的。

同样地,情感词"不可预测的"在惊悚片的背景下可能是积极的,但用来描述丰田汽车的制动系统时则是消极的。

还有许多其他的例子...


1
非常好的观点。幸运的是,我只处理某些新闻来源,他们会避免使用俚语并且通常只陈述事实。不过仍然需要担心,谢谢提醒。 - user387049
2
我认为,当使用没有上下文的字典时,希望的是虽然对于单个句子可能会有一定程度的噪声(错误分类),但在聚合后会有足够的信号具有意义。不过,我不确定如何以统计学的严谨方式测试这种希望。 - mcduffee

12

7

这篇2002年的论文描述了一种从文本样本中自动派生这样一个词典的算法,仅使用两个单词作为种子集。


3
问题在于这种方法使用AltaVista搜索结果来计算PMI-IR,所以我认为对于想要入门的人来说并不是最佳选择。此外,这是一种无监督的方法,与监督方法相比,其结果仍然不太令人满意。 - Kurt Bourbaki
无法访问链接?您能否提供页面的标题? - zacknight95

4

您可以在此处找到AFINN,也可以动态创建它。例如,每当出现未知的正面单词时,将其与+1相加。例如,香蕉是新的正面单词,并且出现了两次,则会变成+2。

您爬取的文章和数据越多,您的词典就会变得越强大!


4
那个文件只是一个玩具文件,为了课堂作业而创建的。在我看来,如果用它来做真正的工作,那将是一个错误。 - mcduffee
@mcduffee 详细说明一下? - jzonthemtn
@jbird 我不确定我能添加什么。该文件是为课堂作业创建的,其中要评估的文本是根据列表中的单词量身定制的。它缺少许多单词(整个列表不到2500个单词)。尝试将其用于未经过单词列表定制的文本可能会导致比更完整的列表提供的情感评估不够准确。 - mcduffee

3

3

Sentiwords 提供了15.5万个单词(以及它们的情感极性,即从非常消极到非常积极之间的-1到1分数)。该词典在这里进行了讨论。


3
你可以使用Vader情感词典。
from nltk.sentiment.vader import SentimentIntensityAnalyzer

sentence='APPle is good for health'
sid = SentimentIntensityAnalyzer()
ss = sid.polarity_scores(sentence)  
print(ss)

它将给出句子的极性。

输出:

 {'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接