情感分析Java库

7
我有一些未标记的微博帖子,想要创建一个情感分析模块。为此,我尝试了Stanford libraryAlchemy Api网络服务,但结果并不是很好。目前,我不想训练我的分类器。
所以我想请你建议一些关于此事的库或者网络服务。我更喜欢经过测试的库。这些帖子的语言是英语。同时预处理已经完成。
附言:
我使用的编程语言是Java EE。

要求我们推荐或寻找书籍、工具、软件库、教程或其他外部资源的问题不适合在 Stack Overflow 上讨论,因为它们往往会引起主观意见和垃圾信息。相反,请描述问题以及已经采取的解决方法。 - Has QUIT--Anony-Mousse
1
微博数据(Twitter?)通常很糟糕,因此分析工具不能很好地工作并不奇怪。 - Has QUIT--Anony-Mousse
@Anony-Mousse也许你是对的。但是这个问题可能可以归为以下类别: “如果您的问题通常涉及程序员常用的软件工具,那么您就可以在这里提出您的问题!”但是,如果我的问题真的与主题无关,我想为此道歉。 - Jimmysnn
我的数据包含一些推文和一些新闻门户网站的评论。在第二种情况下,使用好的工具可以得到可接受的结果。 - Jimmysnn
你的问题不是关于如何使用这样的库。如果它是一个实际的、具体的编程问题,那么它就是切题的,而且不容易引起投票和个人观点(!)。请看下面我的答案,了解这些天情感分析真正能做到什么。99%的炒作,1%的实现。不幸的是,从技术上讲,斯坦福大学可能是最好的(!)。 - Has QUIT--Anony-Mousse
4个回答

10

情感分析未能跟上夸大的承诺。

参见:

情感分析的糟糕状态
2013年12月26日,作者:Angela Hausman
http://www.hausmanmarketingletter.com/sad-state-sentiment-analysis/

最近的实验表明,情感分析数据的准确性比硬币扔出来的结果还低(准确率为50%)。如果你的品牌基于情感分析做战略决策,那真的很可怕。

...

这些工具在预测60%到80%的话语方面是准确的,但当中立的话语被排除(占话语的80%)时,准确性惊人地下降了。

换句话说,每个人都在作弊,过度拟合(例如,推特上有大量重复和近似重复的内容——转发——如果包括这些内容,则会高估实际表现)。


4
如果你想要一个好的情感分析服务,而又不想训练自己的分类器,那就得付费。然而,值得一提的是,在这个领域中并不存在完美的工具。没有工具能保证其分析结果百分之百准确。
话虽如此,几个月前我尝试了一下Semantria/Lexalytics。他们有一个简单明了的Java SDK,并且在情感分析结果上有很高的准确性。

谢谢您的回答。我知道这些工具及其结果。但是我想使用一种能够保证分析准确率在70%至80%之间的工具。您知道有没有免费的工具吗?因为我不确定现在是否可以使用非免费的工具。 - Jimmysnn
我认为没有免费的工具可以完成这项工作。几个月前,我对这些工具进行了研究,我不记得找到符合您要求的工具。我相信您在这里只有两个选择。第一选择是付费使用。第二个选择是训练自己的算法,例如使用Google Predict或Mahout。 - Marlon
好的,谢谢。第二步是训练我的算法。目前我必须使用一个工具。 - Jimmysnn

1
LingPipe是一款免费(同时也有付费版本)的工具,可用于情感分析。主要功能包括:
  1. 情感分析

  2. 命名实体识别

  3. 聚类

  4. 主题分类

  5. 语言识别

等等。http://alias-i.com/lingpipe/index.html

谢谢您的回答。但我正在寻找一种仅用于情感分析的工具。如果您尝试过在微博(推文)数据集上使用此工具,那将非常有帮助。 - Jimmysnn
我目前正在为电影评论进行Twitter情感分析。但是似乎Stanford NLP并不是最适合的选择。因此,我正在尝试训练NLP。顺便说一句,初始训练分类器的结果似乎存在负面偏差!此外,Stanford NLP基于“句子”。而推文包含多个句子。我们还需要纠正拼写错误。运气不佳! - Sam

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接