如何使用DBPedia从内容中提取标签/关键词?

20

我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键词。

我发现了有关DBPedia的文章。DBpedia是从维基百科中提取结构化信息并使其在Web上可用的社区努力。

是否有人使用过他们的 Web 服务?你知道它们是如何工作的,以及它们有多可靠吗?

2个回答

21

DBpedia是一种出色、高质量的资源。但如果要将您的内容转换为相关的DBpedia概念,则需要准确地在文本中识别它们,这至少包括以下两个步骤:

  1. 在您的内容中识别DBpedia概念:这包括在文本中识别概念名称(和替代名称),并消除每个短语的所有可能含义之间的歧义。例如,“Sun”一词根据其消歧页面可能涉及数十种可能的概念,包括星体、报纸、人名等。这涉及实体识别、分类和链接。

  2. 识别其中哪些概念是有趣的:例如,当文本包含“the”一词时,您是否想让“Definite article”这个概念出现(该词条的The指向此处)?

您可以考虑使用支持与DBpedia进行实体链接的现有文本分析库或服务。一个极好的主题索引工具是Maui,由Alyona Medelyan在她的博士期间开发。另一个优秀的开源解决方案是同一所大学的David Milne开发的Wikipedia Miner

两个提供连接到DBpedia概念的商业服务是ZemantaExtractiv(允许一定程度的免费使用)。还可以选择DBpedia spotlight选项。其他可能提供这些功能的工具列在:https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

声明:我曾在已经停业的Extractiv公司工作,该公司由Language Computer Corporation的NLP技术支持。


4
你可以使用Apache Stanbol执行此过程。 Apache Stanbol的Entityhub组件提供基于您的需求生成自定义DBPedia索引的功能。然后,您可以使用Enhancer组件从文本中提取地点,人物,位置实体。
以下邮件线程可能对您有所帮助。
http://markmail.org/message/52266yl5ohijxiof 您可以从以下链接访问Apache Stanbol的运行演示:
http://dev.iks-project.eu/ 您也可以向stanbol-dev AT incubator.apache.org提出更多问题。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接