将数据加载到Titan数据库

4
我有一组以平面文件形式存在的日志数据,我想基于日志中的信息生成一个图,并将其加载到Titan数据库中。这些数据的大小为几千兆字节。我正在研究批量加载选项Faunus和BatchGraph(在https://github.com/thinkaurelius/titan/wiki/Bulk-Loading中有介绍)。我手头的制表符分隔的日志数据需要在文件的每一行上进行一些处理,以形成我所想要的图节点和边。 Faunus/BatchGraph是否可以满足这个需求?如果是,那么我的输入文件应该使用哪种格式才能被这些工具处理?如果不能,使用BluePrints API是正确的方法吗?非常感谢您分享任何资源和建议,因为我是一个新手。谢谢!
1个回答

6
简单来回答你的问题,我认为你需要使用Faunus来加载你的数据。如果可能的话,我建议先用外部工具清理和转换数据。制表符分隔符是一个不错的格式,但是文件准备方式可能会影响加载性能(例如,有时仅仅正确排序数据就可以提供大幅度的速度提升)。
更完整的答案可以在这两个资源中找到。它们应该帮助你决定一种方法: http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/ http://thinkaurelius.com/2014/06/02/powers-of-ten-part-ii/ 我还要提供此外的建议- 如果你真的是个新手,我建议你找出一些产生100K到1M边缘之间的数据子集。专注于只使用 BatchGraph 或像上述博客文章的第一部分中描述的那样使用蓝图API来加载数据。通过查询这个小案例,熟悉一下Gremlin。利用这段时间开发验证已加载内容的方法。一旦你对所有这些都感到舒适,然后再将其扩展到完整大小。

非常感谢!这非常有帮助。我想知道是否有任何关于设置Java环境(例如eclipse)以在titan中进行开发的资源?如果这是不相关的话题,我可以在单独的线程中提出这个问题。 - DaTaBomB

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接