MongoDB数据库模式设计

Question

MongoDB数据库模式设计

12

我有一个拥有50万用户的网站（运行在SQL Server 2008上）。我现在想要包含用户和他们朋友的活动流。在尝试了一些SQL Server的东西后，显然关系型数据库不适合这种功能，即使我大量去规范化数据也很慢。因此，在查看其他NoSQL解决方案后，我发现可以使用MongoDB来实现。我将遵循基于activitystrea.ms的数据结构活动流json格式说明所以我的问题是：对于MongoDB中的活动流，哪种是最佳的模式设计(由于有这么多用户，你可以预测它将非常依赖写入，因此我选择了MongoDB——它具有出色的“写入”性能)。我考虑了3种类型的结构，请告诉我是否合理或者我应该使用其他模式设计。

1 - 在同一个文档中存储每个活动和所有好友/关注者：

 
{
     _id:'activ123',
     actor:{
            id:person1
            },
    verb:'follow',
    object:{
            objecttype:'person',
            id:'person2'
            },
    updatedon:Date(),
    consumers:[
            person3, person4, person5, person6, ... so on
            ]
}

2 - 第二种设计：集合名称-activity_stream_fanout

    {
    _id:'activ_fanout_123',
    personId:person3,
    activities:[
    {
     _id:'activ123',
     actor:{
            id:person1
            },
    verb:'follow',
    object:{
            objecttype:'person',
            id:'person2'
            },
    updatedon:Date(),
    }
],[
    //activity feed 2
    ]
}

3 - 这个方法是将活动项目存储在一个集合中，而消费者则存储在另一个集合中。在活动中，您可能会有一个类似以下的文档：

    { _id: "123",
      actor: { person: "UserABC" },
      verb: "follow",
      object: { person: "someone_else" },
更新时间：Date（...）

然后，对于关注者，我将有以下“通知”文档：

    { activityId: "123", consumer: "某人", 更新时间：Date（...）}
    { activityId: "123", consumer: "其他人", 更新时间：Date（...）}
    { activityId: "123", consumer: "第三个人", 更新时间：Date（...）}

非常感谢您的提问。

- Michael Simmons

2个回答

1

我认为你应该考虑你的访问模式：你最可能在这些数据上执行哪些查询等。

对我而言，需要最快速度的用例是能够将某个活动推送到每个“活动消费者”的“墙”（以fb术语表示），并在活动发生时立即执行。

从这个角度来看（我没有多想），我会选择1，因为2似乎会将某个用户的活动分批处理？因此无法满足更新的“即时”需求。此外，我不认为3在这种情况下比1更具优势。

一些1的增强措施？问自己是否真的需要定义每个活动的消费者数组的灵活性。是否真的有必要在这个细粒度的层面上进行指定？相反，对“演员”的“朋友”的引用是否足够？（随着消费者通常在数百人（？）范围内，这将节省很多空间。）

顺便提一下：根据您想要如何实现这些活动流的实时通知，值得考虑使用Pusher - http://pusher.com/和类似的解决方案。

希望对您有所帮助。

- Geert-Jan

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mnemosyn · Accepted Answer

我建议采用以下结构：

使用一个集合来存储所有发生的操作，名为 Actions
使用另一个集合来存储关注关系，名为 Subscribers
使用第三个集合，名为 Newsfeed 来存储某个用户的新闻源，其中的条目从 Actions 集合中推出。

由异步处理新的 Actions 的工作进程填充 Newsfeed 集合。因此，新闻源不会实时更新。我不同意 Geert-Jan 的观点，即实时性很重要；我认为大多数用户在大多数（而非全部）应用程序中甚至不会在一分钟内关注到延迟（对于实时性，我会选择完全不同的架构）。

如果有大量的 consumers，则扇出可能需要一段时间。另一方面，将消费者直接放入对象中也无法适用于非常庞大的关注者数量，并且会创建过度庞大的对象，占用大量索引空间。

最重要的是，扇出设计更加灵活，可以进行相关性评分、过滤等操作。我最近写了一篇关于使用MongoDB设计新闻源模式的博客文章，在其中详细解释了这种灵活性。

说到灵活性，我会谨慎考虑activitystrea.ms规范。它似乎是用于不同提供商之间的互操作的规范，但如果您不打算汇总来自各种应用程序的活动，则不要将所有冗长的信息存储在数据库中。