使用哪个好的自然语言库进行释义?

14

我正在寻找现有的图书馆来总结或释义内容(我瞄准的是博客文章)- 有使用现有自然语言处理库的经验吗?

我对多种语言持开放态度,所以我更关注其能力和准确性。


这不是离题的内容。 - Trect
4个回答

10

有一些关于Grok的讨论。现在支持使用OpenCCG,并且也将在OpenNLP中重新实现。

您可以在http://openccg.sourceforge.net/找到OpenCCG。我还建议使用Curran和Clark CCG解析器,可在此处获得:http://svn.ask.it.usyd.edu.au/trac/candc/wiki

基本上,对于释义,您需要做的是首先解析博客文章的句子,提取这些帖子的语义含义,然后搜索能够构成相同语义含义的词汇空间,并选择不与当前句子匹配的一个。这将需要很长时间,并且可能没有太多意义。不要忘记,为了做到这一点,您需要近乎完美的回指分辨率和捕捉篇章层次推理的能力。

如果您只是想发布没有机器可识别的重复内容的博客文章,您始终可以使用主题和焦点转换以及WordNet同义词。肯定有网站曾经利用过这种方法赚取AdWords广告费。


5
我认为他想通过自动改写此系统正在监视的博客中的任何内容来生成博客文章。如果您可以将2到10篇类似但来自不同来源的博客文章结合起来,然后自动进行“真实”的改写总结(1篇博客文章的大小),那将非常有趣。这对于家庭作业也可能很有用。不幸的是,这并不容易。
我唯一能想到的方法是能够将每个句子分解为“含义”,然后随机更改句子结构和一些单词,保留含义。下面这些句子意思相同:
  • 我讨厌这个人,他很笨。
  • 这个人很蠢,我讨厌他。
  • 我鄙视这个笨蛋。
  • 他很笨,我讨厌他。
编写一个程序将其中一个句子转换为其他句子并不容易,而这些只是简单的句子,真正的博客句子要复杂得多。

0

你正进入非常遥远的人工智能领域。 我在文本转换为机器知识方面做了广泛的工作,主要使用Attempto Controlled English(参见:http://attempto.ifi.uzh.ch/site/),它是一种自然语言(英语),完全可计算成几个不同的本体,例如OWLDL。

但似乎这太过浩大了...

您是否有理由不只是采用博客文章的前几句话,然后在摘要中附加省略号?


0

感谢提供这些链接。看起来GROK已经停止更新了,但它仍然可能适用于我的目的。

另外还有两个链接:

Attempto受控英语是一个有趣的概念:因为它是完全相反的解决问题的方式。对于我正在尝试做的事情来说,实际上并不实用。

@mmattax关于提出取几个句子的建议-我不是在试图呈现摘要:否则那将是一个很好的judo解决方案。我正在寻找真正的内容摘要,以便用于其他评估目的。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接