MongoDB聚合管道大小和速度问题

Question

MongoDB聚合管道大小和速度问题

mongodbmongodb-queryaggregation-framework

5

我正在尝试使用mongodb聚合查询来连接($lookup)两个集合，然后统计连接数组中所有唯一值的不同数量。*注意：我不一定知道metaDataMap数组中有哪些字段(key)。而且我不想计算或包含可能存在于Map中也可能不存在的字段。所以这就是为什么聚合查询看起来像这样的原因。

那么我的两个集合长这样：events-

{
"_id" : "1",
"name" : "event1",
"objectsIds" : [ "1", "2", "3" ],
}

对象

{
"_id" : "1",
"name" : "object1",
"metaDataMap" : { 
                     "SOURCE" : ["ABC", "DEF"],
                     "DESTINATION" : ["XYZ", "PDQ"],
                     "TYPE" : []
                }
},
{
"_id" : "2",
"name" : "object2",
"metaDataMap" : { 
                     "SOURCE" : ["RST", "LNE"],
                     "TYPE" : ["text"]
                }
},
{
"_id" : "3",
"name" : "object3",
"metaDataMap" : { 
                     "SOURCE" : ["NOP"],
                     "DESTINATION" : ["PHI", "NYC"],
                     "TYPE" : ["video"]
                }
}

我的结果是

{
_id:"SOURCE", count:5
_id:"DESTINATION", count: 4
_id:"TYPE", count: 2
}

我目前有以下内容： ```

这是我目前的进展:

```

db.events.aggregate([
{$match: {"_id" : id}}

,{$lookup: {"from" : "objects",
        "localField" : "objectsIds",
        "foreignField" : "_id",
        "as" : "objectResults"}}

,{$unwind: "$objectResults"} //Line 1
,{$project: {x: "$objectResults.metaDataMap"}} //Line 2


,{$unwind: "$x"}
,{$project: {"_id":0}}

,{$project: {x: {$objectToArray: "$x"}}}
,{$unwind: "$x"}

,{$group: {_id: "$x.k", tmp: {$push: "$x.v"}}}

,{$addFields: {tmp: {$reduce:{
input: "$tmp",
initialValue:[],
in:{$concatArrays: [ "$$value", "$$this"]}
    }}
}}

,{$unwind: "$tmp"}
,{$group: {_id: "$_id", uniqueVals: {$addToSet: "$tmp"}}}

,{$addFields: {count: {"$size":"$uniqueVals"}}}
,{$project: {_id: "$_id", count: "$count"}}
]);

我的问题在于我标记的1&2两行。上面的方法虽然可行，但是处理25,000个metaDataMap数组字段(objectsResults.metaDataMap)需要大约50秒的时间。例如，在对象1的metaDataMap SOURCE数组中有25,000个值。这太慢了。我另外一个更快的方法是用以下代码替换1&2两行：

 ,{$project: {x: "$objectResults.metaDataMap"}} //Line 1
 ,{$unwind: "$x"} //Line 2

这种方法速度很快（不到3秒），但只能在包含大约10,000个项目或更少的数据集上运行。如果超过这个数量，我会收到一个“超过最大文档大小”的错误。

请帮帮我！

- Deckard

可以在“各种数组中的25,000个项目”周围添加更多描述吗？ - Buzz Moschetti

1

只是一个想法。也许你可以尝试将你的 metaDataMap 结构更改为 "metaDataMap" : ["k":{ "SOURCE", "v" : [ "ABC", "DEF" ]}...] 并在 $lookup 后插入 $map 阶段。类似于

{"$project": {"data":{"$map": {"input":"$objectResults.metaDataMap","as": "resultom","in": {"$map": {"input": "$$resultom","as": "resultim","in": {"k":"$$resultim.k","v":{ "$size": "$$resultim.v"}}}}} }}}

。我相信这样你就可以得到大小，展开应该会更快。 - s7vr

但是我用大小不会得到一个不同的计数。对吧？我需要去重v值。 - Deckard

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- kevinadi · Accepted Answer

如果您能够在“object”集合上更改架构设计，包括添加“parent_id”字段，则可以立即删除管道的前4个阶段（第一个“$match”，“$lookup”，“$unwind”和“$project”）。这将使有关“Line 1”和“Line 2”的担忧消失。

例如，“object”集合中的文档如下：

{
  "_id": "1",
  "name": "object1",
  "metaDataMap": {
    "SOURCE": [
      "ABC",
      "DEF"
    ],
    "DESTINATION": [
      "XYZ",
      "PDQ"
    ],
    "TYPE": [ ]
  },
  "parent_id": "1"
}

因此，您不需要昂贵的$lookup和$unwind。前4个阶段可以被替换为：

{$match: {parent_id: id}}

基于这个想法，我对管道进行了进一步的优化，最终实现了：

db.objects.aggregate([
     {$match: {parent_id: id}}
    ,{$project: {metaDataMap: {$filter: {input: {$objectToArray: '$metaDataMap'}, cond: {$ne: [[], '$$this.v']}}}}}
    ,{$unwind: '$metaDataMap'}
    ,{$unwind: '$metaDataMap.v'}
    ,{$group: {_id: '$metaDataMap.k', val: {$addToSet: '$metaDataMap.v'}}}
    ,{$project: {count: {$size: '$val'}}}
])

这将输出：

{ "_id": "TYPE", "count": 2 }
{ "_id": "DESTINATION", "count": 4 }
{ "_id": "SOURCE", "count": 5 }