AWS Neptune节点计数超时问题

3
我们正在向AWS Neptune中进行大规模的批量加载,无法再查询图形以获取节点计数,否则查询会超时。我们有哪些选项可以确保我们能够审计图形中的总计数?
在curl和sagemaker笔记本上失败。
1个回答

2

你可以考虑以下几点。

  1. 最简单的方法是增加集群和/或实例参数组中指定的超时时间,以便查询可以(希望)完成。
  2. 如果您的 Neptune 引擎版本为 1.0.5.x,则可以使用 DFE 引擎来提高 Gremlin 计数性能。您只需要在集群参数组中使用 DFEQueryEngine=viaQueryHint 启用 DFE 引擎即可。
  3. 如果您获取负载状态,它将显示到目前为止处理的记录数值。在这种情况下,记录不是来自 CSV 文件或 RDF 格式文件的行。相反,它是在 RDF 情况下加载的三元组计数和在属性图情况下的属性值和标签计数。作为一个简单的例子,想象一下一个有 100 行的 CSV 文件,每行有 6 列。不包括 ID 列,它是一个标签和 4 个属性。要加载的总记录数将是 100*5 即 500。如果您有稀疏行,则计算将是近似的,除非您将每个具有实际值的非 ID 列相加。
  4. 如果您启用了 Neptune 流功能,则可以检查流并找到最后创建的顶点或边缘。请注意,仅为此目的启用流可能不是理想的选择,因为向流添加会增加一些开销,从而影响负载速度。

更新于2023年3月20日

从引擎版本1.2.1.0开始,Amazon Neptune现在提供了一个摘要API,可用于查询各种图形元数据,包括节点和边缘计数等。Graph-Notebook项目现在还提供了一个%summary行魔法,可用于调用API。


感谢Kelvin的回复。除了批量加载之外,我们只是想得到图中顶点和边的数量。即使超过30分钟的时间限制,我们仍然无法获得这个信息。还有其他建议吗?读副本的使用率低于50%。 - Ryan
你能启用DFE尝试一下吗?但需要引擎版本为1.0.5.x。 - Kelvin Lawrence
好的,看起来查询提升终于有所帮助了。我们只是将引擎推到启用DFE,所以期待着这一点。感谢您的建议! - Ryan

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接