如何使用DBPedia从内容中提取标签/关键词？

Question

20

我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键词。

我发现了有关DBPedia的文章。DBpedia是从维基百科中提取结构化信息并使其在Web上可用的社区努力。

是否有人使用过他们的 Web 服务？你知道它们是如何工作的，以及它们有多可靠吗？

- Pritam Raut

2个回答

4

你可以使用Apache Stanbol执行此过程。 Apache Stanbol的Entityhub组件提供基于您的需求生成自定义DBPedia索引的功能。然后，您可以使用Enhancer组件从文本中提取地点，人物，位置实体。

以下邮件线程可能对您有所帮助。
http://markmail.org/message/52266yl5ohijxiof 您可以从以下链接访问Apache Stanbol的运行演示：
http://dev.iks-project.eu/ 您也可以向stanbol-dev AT incubator.apache.org提出更多问题。

- suat

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- John Lehmann · Accepted Answer

DBpedia是一种出色、高质量的资源。但如果要将您的内容转换为相关的DBpedia概念，则需要准确地在文本中识别它们，这至少包括以下两个步骤：

在您的内容中识别DBpedia概念：这包括在文本中识别概念名称（和替代名称），并消除每个短语的所有可能含义之间的歧义。例如，“Sun”一词根据其消歧页面可能涉及数十种可能的概念，包括星体、报纸、人名等。这涉及实体识别、分类和链接。
识别其中哪些概念是有趣的：例如，当文本包含“the”一词时，您是否想让“Definite article”这个概念出现（该词条的The指向此处）？

您可以考虑使用支持与DBpedia进行实体链接的现有文本分析库或服务。一个极好的主题索引工具是Maui，由Alyona Medelyan在她的博士期间开发。另一个优秀的开源解决方案是同一所大学的David Milne开发的Wikipedia Miner。

两个提供连接到DBpedia概念的商业服务是Zemanta和Extractiv（允许一定程度的免费使用）。还可以选择DBpedia spotlight选项。其他可能提供这些功能的工具列在：https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

声明：我曾在已经停业的Extractiv公司工作，该公司由Language Computer Corporation的NLP技术支持。