如何使用$bucket按多个字段分组

5

首先按年龄分桶,边界值为[0,20,30,40,50,200]

db.user.aggregate(
    {$project: {_id:0, age:{$subtract:[{$year:new Date()}, {$year:"$birthDay"}]} } },
    {$bucket:{
        groupBy:"$age",
        boundaries:[0,20,30,40,50,200]
    }},
    { $project:{ _id:0,age:"$_id",count:1 } }
)

得到以下结果:

{ "count" : 5, "age" : 20 }
{ "count" : 1, "age" : 30 }

然后我想统计每个城市的每个年龄段的数量。
{ city : "SH", age: 20, count: 2 }
{ city : "BJ", age: 20, count: 3 }
{ city : "BJ", age: 30, count: 1 }

那么在这种情况下如何实施呢?

此外

db.user.aggregate(
    { $project: {_id:0, city:1, age:{$subtract:[{$year:new Date()}, {$year:"$birthDay"}]} } },
    { $group: { _id:"$city",ages:{$push:"$age"} } },
    { $project: {_id:0, city:"$_id",ages:1} }
)

{ "city" : "SH", "ages" : [ 26, 26 ] }
{ "city" : "BJ", "ages" : [ 27, 26, 26, 36 ] }

源文件是什么样子的?能否提供一个样本并清晰地描述你想要达到的结果。 - Neil Lunn
2个回答

11

你所谈论的实际上可以通过在正常的 $group 阶段内使用$switch来实现:

db.user.aggregate([
  { "$group": {
    "_id": {
      "city": "$city",
      "age": {
        "$let": {
          "vars": { 
            "age": { "$subtract" :[{ "$year": new Date() },{ "$year": "$birthDay" }] }
          },
          "in": {
            "$switch": {
              "branches": [
                { "case": { "$lt": [ "$$age", 20 ] }, "then": 0 },
                { "case": { "$lt": [ "$$age", 30 ] }, "then": 20 },
                { "case": { "$lt": [ "$$age", 40 ] }, "then": 30 },
                { "case": { "$lt": [ "$$age", 50 ] }, "then": 40 },
                { "case": { "$lt": [ "$$age", 200 ] }, "then": 50 }
              ]
            }
          }
        }
      }
    },
    "count": { "$sum": 1 }
  }}
])

经过结果:

{ "_id" : { "city" : "BJ", "age" : 30 }, "count" : 1 }
{ "_id" : { "city" : "BJ", "age" : 20 }, "count" : 3 }
{ "_id" : { "city" : "SH", "age" : 20 }, "count" : 2 }

$bucket 管道阶段只接受单个字段路径。您可以通过 "output" 选项使用多个累加器,但 "groupBy" 必须是单个表达式。

请注意,您也可以在此处使用 $let 来计算 "age",而不必使用单独的 $project 管道阶段。

请注意,如果您向 $bucket 提供一些错误的表达式,则会收到关于 $switch 的错误信息,这应该提示您这是内部实现所使用的方式。


如果您担心在 $switch 中编码问题,那么只需要生成它即可:

var ranges = [0,20,30,40,50,200];
var branches = [];
for ( var i=1; i < ranges.length; i++) {
  branches.push({ "case": { "$lt": [ "$$age", ranges[i] ] }, "then": ranges[i-1] });
}

db.user.aggregate([
  { "$group": {
    "_id": {
      "city": "$city",
      "age": {
        "$let": {
          "vars": {
            "age": { 
              "$subtract": [{ "$year": new Date() },{ "$year": "$birthDay" }]
            }
          },
          "in": {
            "$switch": { "branches": branches }
          }
        }
      }
    },
    "count": { "$sum": 1 }
  }}
])

谢谢!我也使用Map-Reduce实现了它,我觉得在某些情况下,比如有很多分支的时候,这种Map-Reduce方式更受欢迎。请看下面我的答案。 - zhuguowei
@zhuguowei,这可能不是一个好主意。与本地操作相比,MapReduce 运行速度要慢得多。而且,你只需要使用相同类型的 for 循环,就可以生成 $switch 中的条件。事实上,我差点写了这个循环,但基本上是在等你询问。 - Neil Lunn
实际上已经添加了。这个简单的例子,我认为你没有意识到它有多简单。 - Neil Lunn
是的,你说得对。只需将“for循环”与“switch”进行比较,switch只需要一次比较,但“for循环”平均需要“array.length / 2”次比较。我不知道C++是否能够像Java一样具有一些“JIT”,可以为热代码进行优化。 - zhuguowei
@zhuguowei 我认为你偏离了主题,需要进行一些阅读。这就是答案中的链接的作用。请阅读它们。 - Neil Lunn

0

使用Map-Reduce提供另一种实现方式

db.user.mapReduce(
    function(){
        var age = new Date().getFullYear() - this.birthDay.getFullYear();
        var ages = [0,20,30,40,50,200]
        for(var i=1; i<ages.length; i++){
            if(age < ages[i]){
                emit({city:this.city,age:ages[i-1]},1);
                break;
            }
        }        
    },
    function(key, counts){
        return Array.sum(counts);
    },
    { out: "user_city_age_count" }
)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接