如何使用dbpedia SPARQL从维基百科表中获取数据

4
我能够执行查询,例如查找国家的首都或货币,但在提取表格数据方面遇到了问题。我想从此页面的表格中提取数据。它对应的dbpedia页面是这个

现在,如果您查看dbpedia页面,就没有关于可以查询的表格数据关系。我错过了什么吗?

编辑:有一个项目,我猜目前正在开发中。除了爬网页外,还有其他方法吗?


1
看起来这个问题还没有完全解决。除了你分享的项目之外,还有关于它的论文。如果你的需求只是一次性的,你应该能够爬取原始表格数据,甚至可以根据它创建三元组(关系设计很有意思——我已经存在于DBPedia上作为实体的状态)。 - Jang-Vijay Singh
1
这是一个正在进行的开发和研究过程。一般来说,可以使用任何csv2rdf工具并手动完成,但自动化并不简单。您可以尝试作为GSOC 2017的一部分使用当前正在进行的工具:https://github.com/dbpedia/table-extractor 但是这必须加载到您自己的三元存储中。 - UninformedUser
1个回答

2
这个答案可能不会立即对您有所帮助,但我认为它应该是这样工作的。
与其“查询表”,不如这样考虑:
您正在寻找所有印度邦(DBPedia上的每个实体)、它们的GDP以及可能的其他属性。
GDP应该是邦实体的一个属性 - “列表”页面只是一个方便的聚合,并不应该作为主要拷贝。
类似于此:
select ?state ?gdp WHERE {
  ?state dbo:country dbr:India .
  ?state ?hasGDP ?gdp 
} 
ORDER by ?gdp

不幸的是,DBPedia上的州页面目前没有?hasDGP属性(类似于它们具有dbo:populationTotal属性)。

由于这些缺失的链接,您可能需要使用抓取作为替代方法。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接