在MongoDB中嵌入文档中使用条件聚合

4

我在mongodb的聚合操作中遇到了困难。前提是,我必须获取特定广告在一段时间范围内的数据。

例如,如果我查询4月22日至4月24日的广告,则应该从source1获取支出总和、收入、会话、跳出率等信息,从source2获取广告支出总和。

[{   "_id" : ObjectId("560bbd5dfabc614611000e95"),
    "spend": 470,
    "revenue": 440,
    "sessions": 3
},....

]

这是我尝试的查询语句,可以给出正确的数据,但执行时间太长了——仅22k条记录就需要24秒。

db.getCollection('tests').aggregate([{
  $match: {
    ad_account_id: 40
  }
}, {
  "$unwind": "$source1"
}, {
  "$unwind": "$source2"
}, {
  "$group": {
    "_id": "$internal_id",
    "transactionrevenue": {
      "$sum": {
        "$cond": [{
          "$and": [{
            "$gte": [
              "$source1.created_at", ISODate("2015-04-22T00:00:00.000Z")
            ]
          }, {
            "$lte": [
              "$source1.created_at", ISODate("2015-04-25T00:00:00.000Z")
            ]
          }]
        }, "$source1.transactionrevenue", 0]
      }
    },
    "sessions": {
      "$sum": {
        "$cond": [{
          "$and": [{
            "$gte": [
              "$source1.created_at", ISODate("2015-04-22T00:00:00.000Z")
            ]
          }, {
            "$lte": [
              "$source1.created_at", ISODate("2015-04-25T00:00:00.000Z")
            ]
          }]
        }, "$source1.sessions", 0]
      }
    },
    "spend": {
      "$sum": {
        "$cond": [{
          "$and": [{
            "$gte": [
              "$source2.created_at", ISODate("2015-04-22T00:00:00.000Z")
            ]
          }, {
            "$lte": [
              "$source2.created_at", ISODate("2015-04-25T00:00:00.000Z")
            ]
          }]
        }, "$source2.spend", 0]
      }
    }
  },
}]);

问题在于如何多次解开,如何获取源1中多个事物的总和而不必一遍又一遍地进行聚合?对于22个条目,需要24秒...请建议我应该索引什么(我没有任何索引),并且如果平均4mb的文档大小表明架构有问题吗?
即使聚合通常在mongodb中被认为更快,但是否认为map reduce会更好?
如果您认为文档设计有问题,我全神贯注,因为我们只是在进行迁移。 现在矫正事情比以后要好得多。
下面是一个样本文件。
{
    "_id" : ObjectId("560bbd5dfabc614611000e95"),
    "internal_id": 1,
    "created_at" : ISODate("2015-04-21T00:50:02.593Z"),
    "updated_at" : ISODate("2015-09-15T12:20:39.154Z"),
    "name" : "LookalikeUSApr21_06h19m",
    "ad_account_id" : 40,
    "targeting" : {
        "age_max" : 44,
        "age_min" : 35,
        "genders" : [ 
            1
        ],
        "page_types" : [ 
            "desktopfeed"
        ]
    },
    "auto_optimization" : false,
    "source1" : [ 
        {
            "id" : 119560952,
            "created_at" : ISODate("2015-04-23T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "transactionrevenue" : 320,
            "sessions" : 1,
            "bounces" : 1
        }, 
        {
            "id" : 119560955,
            "created_at" : ISODate("2015-05-01T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "transactionrevenue" : 230,
            "sessions" : 10,
            "bounces" : 1
        }, 
        {
            "id" : 119560954,
            "created_at" : ISODate("2015-04-23T10:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "transactionrevenue" : 120,
            "sessions" : 2,
            "bounces" : 1
        }, 
        {
            "id" : 119560953,
            "created_at" : ISODate("2015-04-25T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "transactionrevenue" : 100,
            "sessions" : 3,
            "bounces" : 2
        }
    ],
    "source2" : [ 
        {
            "id" : 219560952,
            "created_at" : ISODate("2015-04-22T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "spend" : 300
        }, 
        {
            "id" : 219560955,
            "created_at" : ISODate("2015-04-23T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "spend" : 170
        }, 
        {
            "id" : 219560954,
            "created_at" : ISODate("2015-04-25T10:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "spend" : 450
        }
    ]
}

我更新了一个可行的查询,它给我提供了部分数据......一定有更好的方法来做这件事! - Pratik Bothra
添加了一个完全可工作的解决方案-仅用24秒处理22000条记录! :-( - Pratik Bothra
1个回答

1
你应该首先为 "created_at" 字段在 source1source2 数组中添加索引。通过查询这些可能匹配的文档,你很可能会减少很多可能的结果并极大地提高速度。
接下来的主要改进是将数组合并并作为一个进行过滤,特别是在处理 $unwind 之前。这将节省很多循环和数组中的文档扩展。
此外,它将为你提供正确的总数。当你对两个数组进行 $unwind 操作时,第一个数组的详情会被第二个数组中的项目数量重复。这会给你 "unwound" 第一个数组的错误结果。你可以分别执行每个操作,但最好将它们合并成一个数组。
db.getCollection('tests').aggregate([
    { "$match": {
        "ad_account_id": 40,
        "$or": [
            { 
                "source1": {
                    "$elemMatch": {
                        "created_at": { 
                            "$gte": new Date("2015-04-22"),
                            "$lte": new Date("2015-04-25")
                        }
                    }
                }
            },
            { 
                "source2": {
                    "$elemMatch": {
                        "created_at": { 
                            "$gte": new Date("2015-04-22"),
                            "$lte": new Date("2015-04-25")
                        }
                    }
                }
            }
        ]
    }},
    { "$project": {
        "_id": 0,
        "internal_id": 1,
        "source": {
            "$setDifference": [
                { "$map": {
                    "input": { "$setUnion": [ "$source1", "$source2" ] },
                    "as": "source",
                    "in": {
                        "$cond": [
                            { "$and": [
                                { "$gte": [ "$$source.created_at", new Date("2015-04-22") ] },
                                { "$lte": [ "$$source.created_at", new Date("2015-04-25") ] }
                            ]},
                            "$$source",
                            false
                        ]
                    }
                }},
                [false]
            ]
        }
    }},
    { "$unwind": "$source"},
    { "$group": {
        "_id": "$internal_id",
        "transactionrevenue": { "$sum": { "$ifNull": [ "$source.transactionrevenue", 0 ] } },
        "sessions": { "$sum": { "$ifNull": [ "$source.sessions", 0 ] } },
        "spend": { "$sum": { "$ifNull": [ "$source.spend", 0 ] } }
    }}
])

哪个会在您的样本中给出结果:

{ "_id" : 1, "transactionrevenue" : 440, "sessions" : 3, "spend" : 470 }

所以在这里正在做的事情中,可能最重要的架构提示是,在一般应用程序使用中,将数组合并为一个数组会非常明智。如果必须区分两种不同类型的项目,您可以随时添加另一个字段“类型”,但几乎所有处理都应受益于单个数组。
查询的主要教训是,除此之外,您始终应该首先使用 $match 进行过滤,以尽可能过滤掉尽可能多的内容。虽然初始的 $match 阶段当然无法删除不符合条件的数组中的项目,但它可以重要地匹配文档。因为您不希望根本没有该信息的文档被处理。那总是增加时间。
除了合并的数组之外的第二部分基本上是,您希望在可能的情况下在展开数组之前过滤掉任何内容,原因大致相同,因为您不想处理不需要的项目。
简短的教训是,首先进行过滤以减少您正在处理的内容。条件求和很好,但实际上只应用于选择内容而不是原始过滤。基本上是先摆脱不需要的数据,而不是忽略它。处理更少,速度更快。

我按照您提到的添加了索引,由于这仍在开发中,您建议使用单个数组的想法是我会考虑的。我注意到您代码中有一个错别字,“$$el”?目前它对我返回一个空数组作为结果。 - Pratik Bothra
我正在消化你的做法...一开始进行匹配是我一直想做的事情,但你提供的其他建议是我没有考虑过的。顺便问一下,关于源文件,当它达到多长/大时,我应该考虑引用另一个集合而不是使用嵌入式文档?有些文档大约6MB... - Pratik Bothra
@PratikBothra $$el 应该改为 $$source,因为它是 $map 中当前数组成员的引用变量,已经修复。这真的取决于嵌入式内容。一般来说,如果嵌入式数组通常超过 500 个项目,则很可能会发现另一个集合可能会改善事情,但这真的取决于数据的使用方式。 - Blakes Seven

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接