我希望能够用Java从网页中提取嵌入式Web语义(RDF),并形成相应的XML。如有任何建议或帮助,将不胜感激。 例如,如果网页中有关于“Movie”类型的RDF实现,我想要形成一个XML,其中包含一个Movie标签以及它当前的属性值,如startTime等。 目前,我能够使用Apache Jena API从数据库中提取数据并从Resultset形成XML。但是,我不知道如何从网页中提取相同的数据。
如果您想使用软件即服务,那么Any23可以将一些HTML转换为RDF。如果您想从中创建SPARQL结果集,然后加载到Jena模型中并运行查询。或者,如果您不想使用SaaS从HTML / RDFa提取RDF,则可以查看Shellac。它与Jena配合使用,并包括CLI。