我正在寻找现有的图书馆来总结或释义内容(我瞄准的是博客文章)- 有使用现有自然语言处理库的经验吗?
我对多种语言持开放态度,所以我更关注其能力和准确性。
我正在寻找现有的图书馆来总结或释义内容(我瞄准的是博客文章)- 有使用现有自然语言处理库的经验吗?
我对多种语言持开放态度,所以我更关注其能力和准确性。
有一些关于Grok的讨论。现在支持使用OpenCCG,并且也将在OpenNLP中重新实现。
您可以在http://openccg.sourceforge.net/找到OpenCCG。我还建议使用Curran和Clark CCG解析器,可在此处获得:http://svn.ask.it.usyd.edu.au/trac/candc/wiki
基本上,对于释义,您需要做的是首先解析博客文章的句子,提取这些帖子的语义含义,然后搜索能够构成相同语义含义的词汇空间,并选择不与当前句子匹配的一个。这将需要很长时间,并且可能没有太多意义。不要忘记,为了做到这一点,您需要近乎完美的回指分辨率和捕捉篇章层次推理的能力。
如果您只是想发布没有机器可识别的重复内容的博客文章,您始终可以使用主题和焦点转换以及WordNet同义词。肯定有网站曾经利用过这种方法赚取AdWords广告费。
你正进入非常遥远的人工智能领域。 我在文本转换为机器知识方面做了广泛的工作,主要使用Attempto Controlled English(参见:http://attempto.ifi.uzh.ch/site/),它是一种自然语言(英语),完全可计算成几个不同的本体,例如OWLDL。
但似乎这太过浩大了...
您是否有理由不只是采用博客文章的前几句话,然后在摘要中附加省略号?
感谢提供这些链接。看起来GROK已经停止更新了,但它仍然可能适用于我的目的。
另外还有两个链接:
Attempto受控英语是一个有趣的概念:因为它是完全相反的解决问题的方式。对于我正在尝试做的事情来说,实际上并不实用。
@mmattax关于提出取几个句子的建议-我不是在试图呈现摘要:否则那将是一个很好的judo解决方案。我正在寻找真正的内容摘要,以便用于其他评估目的。