现在最先进的短语提取工具是哪一个?

9

我知道以下这些开源工具,但是我没有找到它们各自的好坏比较。

已经准备好使用短语提取的工具:

  • KEA
  • MAUI (http://code.google.com/p/maui-indexer/)
  • Dragon, xTract (http://dragon.ischool.drexel.edu/xtract.asp)
  • Lingpipe (http://alias-i.com/lingpipe/demos/tutorial/interestingPhrases/read-me.html)
  • Mahout (https://cwiki.apache.org/MAHOUT/collocations.html)
  • 其他任何工具

有人看到过这样的比较吗?


“phrase extraction”指的是“句子拆分”还是“句子标记化”? - Renaud
2个回答

4

MAUI 在我的实验中表现优于 KEA。有一篇关于无监督自动关键词提取方法的比较(Coling 2010 paper)。但他们没有分析监督方法,我计划在不久的将来进行分析。

此外,我还探索了更丰富的特征集,这提高了自动关键词提取的性能,但仍然远非完美。我可能会在明年发布带有这些扩展的 MAUI 扩展版本。

请阅读以下论文或通过电子邮件向我了解更多细节:

使用众包、轻量级过滤和共指规范对新闻故事进行主题监督关键词提取

广播新闻的关键词云生成


0

我喜欢Mallet,因为它有一个非常易于使用的命令行工具。


你如何使用Mallet提取短语?例如,有主题建模=聚类,但据我所知,没有从大型语料库中提取关键短语的方法。 - yura

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接