OLAP能在BigTable中实现吗？

Question

OLAP能在BigTable中实现吗？

26

过去我使用MySQL构建OLAP立方体来进行Web分析。现在，我所使用的OLAP立方体实际上就是一个大表（当然，它存储得比普通表更加巧妙），其中每一行基本上都是一个测量值或者是一个聚合的集合。每个测量值都有一些维度（例如页面名称、用户代理、IP等等）和一些值（例如页面访问次数、访问用户数等等）。

你可以对这样的表进行的查询通常采用如下形式的元SQL：

SELECT SUM(hits), SUM(bytes),
FROM MyCube
WHERE date='20090914' and pagename='Homepage' and browser!='googlebot'
GROUP BY hour

所以，使用提到的筛选条件，你可以获得所选日期每小时的总计数。一个问题是这些立方体通常意味着要进行完整的表扫描（各种原因），这就限制了你可以创建这些东西的大小（以 MiB 为单位）。

我目前正在学习 Hadoop 等工具的详细使用。

在 BigTable 上将上述查询作为 MapReduce 运行似乎很容易：只需将“hour”作为键，在 map 中过滤并通过求和降低数据值。

你能否在类似于 BigTable 的系统中“实时”运行像我上面展示的查询（或者至少具有相同的输出），而不是以批处理方式运行？

如果不能，那么在 BigTable/Hadoop/HBase/Hive 等领域做这样的事情的适当技术是什么？

- Niels Basjes

5个回答

4

我的回答涉及HBase，但同样适用于BigTable。

Urban Airship开源了datacube，我认为这很接近你想要的。在这里查看他们的演示文稿。

Adobe还有一些关于如何使用HBase进行“低延迟OLAP”的演示文稿（此处和此处）。

- Suman

4

我们通过对SQL查询进行预聚合，并将其映射到适当的Hbase qualifiers中，成功创建了低延迟的HBase OLAP。欲了解更多详细信息，请访问以下网站：http://soumyajitswain.blogspot.in/2012/10/hbase-low-latency-olap.html。

- Soumyajit Swain

3

如果你正在寻找一种表扫描方法，你考虑过Google BigQuery吗？BigQuery在后端自动进行规模化处理，以实现交互式响应。2012年Google I/O活动中Jordan Tigani的一个好的演讲解释了其中一些内部机制。它不是MapReduce，但它专注于高速表扫描，就像你所描述的那样。请参考以下链接：http://www.youtube.com/watch?v=QI8623HlYd4。

- overcoil

虽然这个链接可能回答了问题，但最好在此处包含答案的基本部分并提供参考链接。仅有链接的答案如果链接页面发生更改可能会变得无效。 - Andy Hayden

3

Andrei Dragomir给出了一个有趣的演讲，介绍了Adobe如何利用M/R和HBase执行OLAP功能。

视频：http://www.youtube.com/watch?v=5U3EnfiKs44

幻灯片：http://hstack.org/hbasecon-low-latency-olap-with-hbase/

- Nicolas

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- SquareCog · Accepted Answer

这个事情已经有点做过了（有点）。

LastFm的汇总/摘要引擎：http://github.com/zohmg/zohmg

谷歌搜索结果出现了一个谷歌代码项目“mroll”，但除了联系信息（没有代码，什么都没有）外，它没有任何内容。不过，你可能想联系那个人看看最新进展。http://code.google.com/p/mroll/