我想询问一个适用于大型数据集的好的三元存储库,它应该具备以下特点:
- 能够良好地扩展(处理数百万个三元组)
- 有Java接口
我想询问一个适用于大型数据集的好的三元存储库,它应该具备以下特点:
引用 4store 网站...
4store 的主要优点是其性能、可扩展性和稳定性。它在RDF存储和SPARQL查询方面提供的功能不多,但如果你正在寻找一个可扩展、安全、快速和高效的RDF存储,那么 4store 应该在你的候选名单上。
我个人使用过 4store 处理非常大的数据库(多达20亿三元组),效果非常好。4store 使用 C 语言编写,在 Linux/Unix 64位平台上运行,当前版本1.1.1已经部分实现了 SPARQL 1.1 标准。
4store 可以部署在一组普通服务器上,可以提高查询性能,断言吞吐量可达每秒100K三元组。但即使在单个服务器上使用,也会得到相当不错的性能。
在南安普敦大学,我们选择 4store 来处理研究项目中的大型数据集,也用于我们的 Webmaster 团队,详见 Data Stores for Southampton and ECS Open Data。
这里还有一个列表,列出了所有可用于查询和管理 4store 的库 Client Libraries。此外,4store的IRC频道拥有一个活跃的用户社区,如果你遇到任何问题,他们会乐意提供帮助。
如果你是 Linux/Unix 用户,4store 绝对是一个不错的选择。
@Steve - 不知道该怎么评论,所以我想我要一次回答2个问题。
以下是SPARQL的JDBC驱动程序:
http://code.google.com/p/jdbc4sparql/
支持SPARQL协议和SPARUL(通过SPARQL协议进行更新,而不是通过SPARUL协议)。
@myahya
强烈推荐4Store,值得评估为候选方案。
Virtuoso还具有本地JDBC驱动程序,并支持大型数据集(高达120亿个三元组)。
www.openlinksw.com/wiki/main/Main/
此外,Oracle也有相关东西,但准备好付出巨额费用:
http://www.oracle.com/technetwork/database/options/semantic-tech/index.html