我一直在尝试将一个相对较大的数据集导入到neo4j中...大约有5000万个节点和关系。
我最初通过py2neo尝试了Cypher,它确实可以工作,但如果需要使用CREATE UNIQUE或MERGE,则变得非常缓慢。
现在我正在寻找其他批量导入方法,并想知道哪种方法是最适合一般工作流程和速度的建议。
我最初通过py2neo尝试了Cypher,它确实可以工作,但如果需要使用CREATE UNIQUE或MERGE,则变得非常缓慢。
现在我正在寻找其他批量导入方法,并想知道哪种方法是最适合一般工作流程和速度的建议。
- Neo4j文档提到了一个批量插入工具batch insertion facility,似乎是Java的,是Neo4j分发包的一部分;
- 还有Michael Hunger在github上的batch inserter,我不确定它与分发包中的工具有多相似或不同;
- 然后还有我正在测试的load2neo;
- 最后还有Neo v2的CYPHER中的load from CSV功能,虽然我不确定它是否只是方便因素,以及它的性能是否类似于通过Cypher事务批量执行40,000个查询。