Mongodb:如何避免大型集合更新时出现锁定

4

我有一个包含2,502,011个元素的events集合,希望对所有元素进行更新。不幸的是,由于写锁,我面临着许多mongodb故障。

问题:我该如何避免这些故障,以确保正确更新所有事件?

以下是我的事件集合相关信息:

> db.events.stats()
{
    "count" : 2502011,
    "size" : 2097762368,
    "avgObjSize" : 838.4305136947839,
    "storageSize" : 3219062784,
    "numExtents" : 21,
    "nindexes" : 6,
    "lastExtentSize" : 840650752,
    "paddingFactor" : 1.0000000000874294,
    "systemFlags" : 0,
    "userFlags" : 0,
    "totalIndexSize" : 1265898256,
    "indexSizes" : {
        "_id_" : 120350720,
        "destructured_created_at_1" : 387804032,
        "destructured_updated_at_1" : 419657728,
        "data.assigned_author_id_1" : 76053152,
        "emiting_class_1_data.assigned_author_id_1_data.user_id_1_data.id_1_event_type_1" : 185071936,
        "created_at_1" : 76960688
    }
}

以下是一个事件的示例:

> db.events.findOne()
{
  "_id" : ObjectId("4fd5d4586107d93b47000065"),
  "created_at" : ISODate("2012-06-11T11:19:52Z"),
  "data" : {
    "project_id" : ObjectId("4fc3d2abc7cd1e0003000061"),
    "document_ids" : [
      "4fc3d2b45903ef000300007d",
      "4fc3d2b45903ef000300007e"
    ],
    "file_type" : "excel",
    "id" : ObjectId("4fd5d4586107d93b47000064")
  },
  "emiting_class" : "DocumentExport",
  "event_type" : "created",
  "updated_at" : ISODate("2013-07-31T08:52:48Z")
}

我希望更新每个事件,基于现有的created_atupdated_at添加两个新字段。如果我错了,请纠正我,但似乎当你需要一路访问当前元素数据时,无法使用Mongo的update命令。

这是我的更新循环:

db.events.find().forEach(
  function (e) {
    created_at = new Date(e.created_at);
    updated_at = new Date(e.updated_at);

    e.destructured_created_at = [e.created_at]; // omitted the actual values
    e.destructured_updated_at = [e.updated_at]; // omitted the actual values
    db.events.save(e);
  }
)

当运行上述命令时,由于数据库上的写锁,我会得到大量页面错误。
1个回答

6

我认为您有些困惑,不是写锁引起了这个问题,而是MongoDB查询您的更新文档时出现的;在页面故障期间,锁不存在(实际上它只存在于实际更新或保存文档到磁盘时),会给其他操作让路。

在MongoDB中,锁更像是一个互斥锁。

对于这样大小的数据,页面故障是非常正常的,因为您显然不经常查询这些数据,我不确定您希望看到什么。我确实不确定您的问题是什么:

问题:如何避免这些故障以确保正确更新所有事件?

好的,您可能会看到的问题是,机器上出现了页面抖动,从而破坏了IO带宽,并使工作集充满了不需要的数据。您是否真的需要急切地将此字段添加到所有文档中?当应用程序再次使用该数据时,它不能按需添加吗?

另一个选择是分批进行。

这里您可以使用的一个功能是优先队列,它指定这样的更新是后台任务,不应太多影响您的当前工作。我听说这个功能即将推出(无法找到JIRA :/)。

如果我没错的话,似乎在需要沿途访问当前元素数据时无法使用mongo更新命令。

您是正确的。


谢谢你在这里帮助我。我以为页面错误是Mongo告诉我,例如1000次更新中有100次失败了。我之所以这样想,是因为我先在Rails中进行了这个大型更新,结果发现超过一百万个事件没有正确更新!关于你的问题,我需要更新所有这里的事件,以便能够对我的应用程序进行统计。我将运行Mongo脚本直到结束,看看是否仍有一些事件根本没有更新。这可能是使用mongoid时出现的Rails问题。谢谢,欢迎评论。 - Pierre-Louis Gottfrois
@Pierre-LouisGottfrois 我明白了,页面错误当然是将硬盘中的数据带入内存,我建议你尝试使用mongo控制台,在其中运行一个javascript文件并查看事件是否正确更新(还可以直接尝试更新其中一个未更新的事件),此外mongo控制台更接近(或在同一服务器上)数据库,因此没有网络带宽问题。 - Sammaye

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接