Titan如何使用HBase/Cassandra实现常数时间查找？

Question

5

在《图形数据库》(O'Reilly书籍)第六章中，该章节讲述了Neo4j的图形数据库存储方式：

为了理解本地图形处理为什么比基于重型索引的图形更加高效，请考虑以下问题。根据实现方式，索引查找在算法复杂度上可能是O(log n)，而直接查找相邻关系则是O(1)。对于遍历m步网络，索引方法的代价为O(m log n)，而使用无索引邻接表的实现则仅为O(m)。

因此Neo4j通过将所有节点和关系作为固定大小记录来实现常数时间查找:

使用固定大小的记录和指针式记录ID，遍历只需要在数据结构中跟踪指针即可，这可以非常高速地完成。要从一个节点到另一个节点遍历特定的关系，数据库执行几个廉价的ID计算（这些计算比在非图形本地数据库中伪造图形时必须执行的全局索引搜索要便宜得多）。

最后一句话引发了我的问题：Titan如何利用Cassandra或HBase作为存储后端实现这些性能提升或弥补它的不足呢?

- Lodewijk Bogaards

我会为OrientDB的同样问题投票！ - František Hartman

好问题，没错。OrientDB处理自己的存储，所以我猜他们有类似Neo4j的东西，但我很想知道。 - Lodewijk Bogaards

无论您是访问缓存对象还是磁盘上的对象，Neo4j在算法复杂度方面都是O(1)，因为它只是追踪指针而不是调用某些外部索引来遍历关系。Neubauer和Rodriguez（见上文）称之为“无索引邻接”，我认为这对所有合理的图形数据库都是至关重要的。 - Jim Webber

2个回答

1

OrientDB采用类似的方法管理关系，即使用直接指针（LINKS）而不是索引（无索引邻接），就像在磁盘上的内存指针一样。通过这种方式，OrientDB在内存和硬盘上实现了O(1)的遍历。

但是如果你有一个名为“City”的顶点，它与数千个“Person”顶点相连，并且你正在寻找所有年龄大于18岁的人，则OrientDB将使用索引，因为涉及到查询，所以在这种情况下复杂度是O(log N)。

- Lvca

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Marko A. Rodriguez · Accepted Answer

仅当数据在同一JVM中的内存时，Neo4j才能达到O（1）的性能。当数据在磁盘上时，由于在磁盘上跟踪指针（它们的磁盘表示方法很差），Neo4j变得较慢。

仅当数据在同一JVM中的内存中时，Titan才能达到O（1）的性能。当数据在磁盘上时，Titan比Neo4j更快，因为它有更好的磁盘表示方式。

因此，重要的是要理解人们说O（1）时，他们所处的内存层次结构的哪一部分。当您在单个JVM（单台计算机）中时，像Neo4j和Titan这样的缓存引擎可以轻松快速地工作。当无法将整个图形放入内存中时，必须依靠智能磁盘布局、分布式缓存等。

请参见以下两篇博客文章以获取更多信息：