将HTML转换为RDF

4
我正在寻找一种通用的API / Web服务/工具等,它可以将给定的HTML页面尽可能精确地转换为RDF图(最有可能使用骨干本体和/或映射器)。请注意,保留HTML标记。

1
你对HTML文档的内容有控制权吗?还是它可以是任意随机的文档? - Scott
它可以是任何HTML文档。我需要将HTML文档的结构提取到RDF图中。如果转换使用骨干映射器/本体论,那就更好了。 - jaxvy
看起来XSPARQL可以通过根据本体写的自定义查询来实现这一点... - jaxvy
3
“HTML文档的结构”指的是divp等元素的结构吗?以这个SO页面为例:你想要的RDF输出是什么? - Pēteris Caune
3个回答

2

你尝试过使用 GRDDL 吗?

GRDDL 是一种从 XML 文档中获取 RDF 数据的技术,特别是 XHTML 页面。


1
我使用了 XQuery 来提取给定网页集合中的数据。我不得不为这些网页编写自定义查询。我认为这是针对特定 HTML 文件集合采取的最直接的方法。但是,显然对于一般情况并不好用。对于另一个不同的网页集合,需要编写其他自定义查询。

0

我使用JSoup从HTML中抓取数据。它使用类似于jQuery的方式查询HTML DOM,这是我已经熟悉的,所以对我来说使用这个工具非常简单。我也发现它相当强大,但我只需要用它来抓取3个数据源,所以我对这个工具的经验不是很丰富。jsoup


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接