我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键词。
我发现了有关DBPedia的文章。DBpedia是从维基百科中提取结构化信息并使其在Web上可用的社区努力。
是否有人使用过他们的 Web 服务?你知道它们是如何工作的,以及它们有多可靠吗?
我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键词。
我发现了有关DBPedia的文章。DBpedia是从维基百科中提取结构化信息并使其在Web上可用的社区努力。
是否有人使用过他们的 Web 服务?你知道它们是如何工作的,以及它们有多可靠吗?
DBpedia是一种出色、高质量的资源。但如果要将您的内容转换为相关的DBpedia概念,则需要准确地在文本中识别它们,这至少包括以下两个步骤:
在您的内容中识别DBpedia概念:这包括在文本中识别概念名称(和替代名称),并消除每个短语的所有可能含义之间的歧义。例如,“Sun”一词根据其消歧页面可能涉及数十种可能的概念,包括星体、报纸、人名等。这涉及实体识别、分类和链接。
识别其中哪些概念是有趣的:例如,当文本包含“the”一词时,您是否想让“Definite article”这个概念出现(该词条的The指向此处)?
您可以考虑使用支持与DBpedia进行实体链接的现有文本分析库或服务。一个极好的主题索引工具是Maui,由Alyona Medelyan在她的博士期间开发。另一个优秀的开源解决方案是同一所大学的David Milne开发的Wikipedia Miner。
两个提供连接到DBpedia概念的商业服务是Zemanta和Extractiv(允许一定程度的免费使用)。还可以选择DBpedia spotlight选项。其他可能提供这些功能的工具列在:https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais
声明:我曾在已经停业的Extractiv公司工作,该公司由Language Computer Corporation的NLP技术支持。
Entityhub
组件提供基于您的需求生成自定义DBPedia索引的功能。然后,您可以使用Enhancer
组件从文本中提取地点,人物,位置实体。stanbol-dev AT incubator.apache.org
提出更多问题。