AWS Neptune节点计数超时问题

Question

3

我们正在向AWS Neptune中进行大规模的批量加载，无法再查询图形以获取节点计数，否则查询会超时。我们有哪些选项可以确保我们能够审计图形中的总计数？

在curl和sagemaker笔记本上失败。

- Ryan

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Kelvin Lawrence · Accepted Answer

你可以考虑以下几点。

最简单的方法是增加集群和/或实例参数组中指定的超时时间，以便查询可以（希望）完成。
如果您的 Neptune 引擎版本为 1.0.5.x，则可以使用 DFE 引擎来提高 Gremlin 计数性能。您只需要在集群参数组中使用 DFEQueryEngine=viaQueryHint 启用 DFE 引擎即可。
如果您获取负载状态，它将显示到目前为止处理的记录数值。在这种情况下，记录不是来自 CSV 文件或 RDF 格式文件的行。相反，它是在 RDF 情况下加载的三元组计数和在属性图情况下的属性值和标签计数。作为一个简单的例子，想象一下一个有 100 行的 CSV 文件，每行有 6 列。不包括 ID 列，它是一个标签和 4 个属性。要加载的总记录数将是 100*5 即 500。如果您有稀疏行，则计算将是近似的，除非您将每个具有实际值的非 ID 列相加。
如果您启用了 Neptune 流功能，则可以检查流并找到最后创建的顶点或边缘。请注意，仅为此目的启用流可能不是理想的选择，因为向流添加会增加一些开销，从而影响负载速度。

更新于2023年3月20日

从引擎版本1.2.1.0开始，Amazon Neptune现在提供了一个摘要API，可用于查询各种图形元数据，包括节点和边缘计数等。Graph-Notebook项目现在还提供了一个%summary行魔法，可用于调用API。