mongo db - map reduce and lookup

4

在同一查询管道中同时执行查找和MapReduce是否有效?

假设我有两个集合:

  • items: { _id, group_id, createdAt }
  • purchases: { _id, item_id }

我想基于每个组的最近x项购买数量获取前n个物品组。

如果我可以在item文档中获得购买数量,那么我可以聚合和排序,但事实并非如此。

我可以这样获取每个组的最近x项:

let x = 3;
let map = function () {
  emit(this.group_id, { items: [this] });
};
let reduce = function (key, values) {
  return { items: getLastXItems(x, values.map(v => v.items[0])) };
};
let scope = { x };

db.items.mapReduce(map, reduce, { out: { inline: 1 }, scope }, function(err, res) {
  if (err) {
    ...
  } else {
    // res is an array of { group_id, items } where items is the last x items of the group
  }
});

但是我缺少购买数量,所以无法使用它来对组进行排序,并输出前n个组(顺便说一句,我甚至不确定我能否做到这一点)。

我正在一个Web服务器上使用它,并使用作用域变量根据用户上下文运行查询,因此我不想将结果输出到另一个集合并必须在内联中完成所有操作。

=== 编辑1 === 添加数据示例:

样本数据可能如下:

// items
{ _id: '1, group_id: 'a', createdAt: 0 }
{ _id: '2, group_id: 'a', createdAt: 2 }
{ _id: '3, group_id: 'a', createdAt: 4 }
{ _id: '4, group_id: 'b', createdAt: 1 }
{ _id: '5, group_id: 'b', createdAt: 3 }
{ _id: '6, group_id: 'b', createdAt: 5 }
{ _id: '7, group_id: 'b', createdAt: 7 }
{ _id: '8, group_id: 'c', createdAt: 5 }
{ _id: '9, group_id: 'd', createdAt: 5 }

// purchases
{ _id: '1', item_id: '1' }
{ _id: '2', item_id: '1' }
{ _id: '3', item_id: '3' }
{ _id: '4', item_id: '5' }
{ _id: '5', item_id: '5' }
{ _id: '6', item_id: '6' }
{ _id: '7', item_id: '7' }
{ _id: '8', item_id: '7' }
{ _id: '9', item_id: '7' }
{ _id: '10', item_id: '3' }
{ _id: '11', item_id: '9' }

n = 3x = 2 时,样本结果如下:

[
  group_id: 'a', numberOfPurchasesOnLastXItems: 4,
  group_id: 'b', numberOfPurchasesOnLastXItems: 3,
  group_id: 'c', numberOfPurchasesOnLastXItems: 1,
]

2
您能否发布一些示例项目和购买记录以及示例结果?从您的描述中不清楚涉及哪些数据类型,例如,购买记录是否包含item_id数组或个别的item_id? - kevinadi
我编辑了问题,谢谢。 - Guig
抱歉,关于你的示例数据,n = 3x = 2是什么意思? - kevinadi
n 是返回结果的限制,而 x 表示每个组只查看最近的 x 项。 - Guig
一段时间后,我想出了一个使用聚合管道的解决方案(即不使用MapReduce)。我不知道它是否好并且如何改进它。我正在开始尝试 :) - Guig
1个回答

1

我认为这个问题可以通过聚合管道来解决,但我不知道这样做会有多糟糕,特别是在性能方面。

我关心的问题有:

  • 聚合管道是否能够从查找和排序中受益于索引?
  • 仅用于计算匹配项的查找+投影能否简化?

无论如何,我认为一种解决方案可能是:

x = 2;
n = 3;

items.aggregate([
  {
    $lookup: {
      from: 'purchases',
      localField: '_id',
      foreignField: 'item_id',
      as: 'purchases',
    },
  },
  /*
  after the join, the data is like {
    _id: <itemId>,
    group_id: <itemGroupId>,
    createdAt: <itemCreationDate>,
    purchases: <arrayOfPurchases>,
  }
  */

  {
    $project: {
      group_id: 1,
      createdAt: 1,
      pruchasesCount: { $size: '$purchases' },
    }
  }
  /*
  after the projection, the data is like {
    _id: <itemId>,
    group_id: <itemGroupId>,
    createdAt: <itemCreationDate>,
    purchasesCount: <numberOfPurchases>,
  }
  */

  {
    $sort: { createdAt: 1 }
  },

  {
    $group: {
      _id: '$group_id',
      items: {
        $push: '$purchasesCount',
      }
    }
  }
  /*
  after the group, the data is like {
    _id: <groupId>,
    items: <array of number of purchases per item, sorted per item creation date>,
  }
  */

  {
    $project: {
      numberOfPurchasesOnMostRecentItems: { $sum: { $slice: ['$purchasesCount', x] } },
    }
  }
  /*
  after the projection, the data is like {
    _id: <groupId>,
    numberOfPurchasesOnMostRecentItems: <number of purchases on the last x items>,
  }
  */

  {
    $sort: { numberOfPurchasesOnMostRecentItems: 1 }
  },

  { $limit : n }
]);

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接