任何可扩展的OLAP数据库(Web应用规模)?

10
我有一个应用程序需要对不同层级的聚合数据进行分析,这是OLAP工作负载。我也希望经常更新我的数据库。
例如,下面是我的更新样式(模式如下:时间,目标,源IP,浏览器 -> 访问量)。
(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) -->  105

(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110

...

(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110

然后我想问一下上个月有多少次访问是通过Firefox浏览器访问www.stackoverflow.com的。

我了解Vertica系统可以以相对便宜的方式(就性能和可扩展性而言,但可能不包括成本方面)完成此操作。我有两个问题。

1)是否有开源产品可以用来解决此问题?特别是Mondrian系统的工作效果如何?(可扩展性和性能) 2)是否有基于HBase或Hypertable的解决方案(显然,裸露的HBase/Hypertable无法解决这个问题)?但如果有基于HBase/Hypertable的项目,则我认为可扩展性可能不是问题。

谢谢!


你期望的数据量是多少?每天100万次点击?1000万次? - Data Monk
4个回答

2
您可以下载Greenplum数据库的免费版(单节点版)。我个人没有尝试过,但我认为它是一种功能强大的数据库。点击这里查看详情:http://www.dbms2.com/2009/10/19/greenplum-free-single-node-edition/ 另一个选择是MongoDB,它快速且免费,并且您可以使用JavaScript编写MapReduce函数来进行分析。
由于我的声望不够高,无法在此处添加指向MongoDB的超链接,请您自行搜索。每篇文章只能添加一个超链接。

澄清一下:Greenplum SNE是“免费的啤酒”。你不需要为它支付任何费用,但是在部署它的服务器数量和大小方面有许可限制,并且源代码不公开发布。 - goodside

2
zohmg项目旨在利用Hadoop和HBase解决这个问题。”

2

0

你的数据模型比这个更复杂吗?如果不是,你最好只是为它编写自定义代码。那样你可以真正地将其调整到你的数据上。真正的产品必须提供很多灵活性,需要很多复杂性才能实现,并因此而导致速度下降。

你的问题在一个方面不够清晰:当你谈论可伸缩性时,你指的是什么?你从很多网站收集数据但只有有限数量的查询用户,还是你也有很多用户?这种情况会导致一个明显不同的模型。


我认为数据模型不是重点。原帖想要在Hbase等上找到预计算(立方体格子)的解决方案。你所谈论的Mapreduce,扩展了Hive正在做的事情,但本质上它是一种批处理模式处理。 - user279941
不,我说的是编写代码并使用平面文件。当然,这取决于数据模型和实体数量。 - Stephan Eggermont

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接