TinkerPop/Gremlin 合并顶点(和边)

4
有没有简单的方法替换或合并顶点并保留/合并现有边?还是手动复制顶点的所有属性,重新创建现有边和所有(元)属性,然后删除多余的顶点?

你能详细说明一下你的使用情况吗?你是在谈论导入吗?如果是,那么你是如何导入顶点的?你正在使用哪个图形数据库? - Daniel Kuppitz
我的使用案例是一个知识图谱,其中包含来自不同来源的数据。这些数据可以描述相同实体的不同方面。不同的来源并不总是具有这些实体的公共标识符。当拥有足够的数据时,我可以确定哪些顶点是关于同一实体的,并且我想要合并这些顶点(包括它们的顶点)。我使用的数据库不应该成为问题,但我正在使用JanusGraph(与Cassandra和Elasticsearch)。 - user3508638
数据库确实很重要,否则我也不会问了。每个数据库都有其独特的附加功能。因此,对于Janus来说,编写自定义顶点程序可能是一个好主意。你如何匹配这些顶点?你使用长时间运行的OLAP作业还是OLTP中的短暂操作? - Daniel Kuppitz
@DanielKuppitz 谢谢您的回复。大多数匹配是在导入数据时进行的,因为需要尽快解决。我明白这将是一个手动操作(希望有一些tinkerpop-api函数)。但由于导入高度并发且传入的数据可能与同一实体的所有顶点相关,我预计要删除的顶点可以在合并过程中同时获得新属性或边缘。因此,如果我没有正确检查/锁定,我可能会丢失数据。我必须好好考虑一下这个问题... - user3508638
1个回答

5

好的,如上面的评论所提到的,您将在OLTP中进行匹配。这意味着您可能会有一个具体的入口点。让我们编写一个简单的示例图:

g = TinkerGraph.open().traversal()

// Stackoverflow data
g.addV("user").property("login", "user3508638").as("a").
  addV("user").property("login", "dkuppitz").property("age", 35).as("b").
  addV("question").property("title", "Tinkerpop/gremlin merge vertices (and edges)").as("c").
  addE("posted").from("a").to("c").
  addE("commented").from("b").to("c").property("time", 123).iterate()

// Github data
g.addV("user").property("login", "dkuppitz").property("name", "Daniel Kuppitz").as("a").
  addV("project").property("title", "TinkerPop").as("b").
  addE("contributed").from("a").to("b").iterate()

根据登录名dkuppitz匹配顶点,并将它们合并为一个用户顶点:

g.V().has("login", "dkuppitz").
  fold().filter(count(local).is(gt(1))).unfold().
  sideEffect(properties().group("p").by(key).by(value())).
  sideEffect(outE().group("o").by(label).by(project("p","iv").by(valueMap()).by(inV()).fold())).
  sideEffect(inE().group("i").by(label).by(project("p","ov").by(valueMap()).by(outV()).fold())).
  sideEffect(drop()).
  cap("p","o","i").as("poi").
  addV("user").as("u").
  sideEffect(
    select("poi").select("p").unfold().as("kv").
    select("u").property(select("kv").select(keys), select("kv").select(values))).
  sideEffect(
    select("poi").select("o").unfold().as("x").
    select("u").sideEffect { u ->
      u.path("x").getValue().each { x ->
        def e = u.get().addEdge(u.path("x").getKey(), x.get("iv"))
        x.get("p").each { p ->
          e.property(p.getKey(), p.getValue())
        }
      }
    }).
  sideEffect(
    select("poi").select("i").unfold().as("x").
    select("u").sideEffect { u ->
      u.path("x").getValue().each { x ->
        def e = x.get("ov").addEdge(u.path("x").getKey(), u.get())
        x.get("p").each { p ->
          e.property(p.getKey(), p.getValue())
        }
      }
    }).iterate()

我知道,这个查询看起来非常复杂,尤其是有着深度嵌套的lambda表达式。但很遗憾我们无法避免使用lambda表达式,因为我们没有addE(<traversal>)重载的函数(不过我已经创建了一个工单)。无论如何,在执行上述查询后,图形会变成这样:

gremlin> g.V().valueMap()
==>[login:[user3508638]]
==>[title:[Tinkerpop/gremlin merge vertices (and edges)]]
==>[title:[TinkerPop]]
==>[name:[Daniel Kuppitz],login:[dkuppitz],age:[35]]
gremlin> g.V().has("login", "dkuppitz").bothE()
==>e[19][15-commented->5]
==>e[20][15-contributed->12]
gremlin> g.V().has("login", "dkuppitz").bothE().valueMap(true)
==>[label:commented,time:123,id:19]
==>[label:contributed,id:20]

两个 dkuppitz 顶点已合并为一个(nameage 属性均存在),并相应地重新创建了 2 条边。

更新:

通过TINKERPOP-1793,我们可以摆脱所有的 lambda 表达式:

g.V().has("login", "dkuppitz").
  fold().filter(count(local).is(gt(1))).unfold().
  sideEffect(properties().group("p").by(key).by(value())).
  sideEffect(outE().group("o").by(label).by(project("p","iv").by(valueMap()).by(inV()).fold())).
  sideEffect(inE().group("i").by(label).by(project("p","ov").by(valueMap()).by(outV()).fold())).
  sideEffect(drop()).
  cap("p","o","i").as("poi").
  addV("user").as("u").
  sideEffect(
    select("poi").select("p").unfold().as("kv").
    select("u").property(select("kv").select(keys), select("kv").select(values))).
  sideEffect(
    select("poi").select("o").unfold().as("x").select(values).
    unfold().addE(select("x").select(keys)).from(select("u")).to(select("iv"))).
  sideEffect(
    select("poi").select("i").unfold().as("x").select(values).
    unfold().addE(select("x").select(keys)).from(select("ov")).to(select("u"))).iterate()

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接