Cassandra是公认的NoSQL领袖,当涉及到舒适地扩展到TB或PB级别的数据时。
通过http://www.datastax.com/why-cassandra
所以我的问题是:为什么人们应该使用Greenplum等产品?与这些其他产品相比,是否存在巨大优势?谢谢。
通过http://www.datastax.com/why-cassandra
所以我的问题是:为什么人们应该使用Greenplum等产品?与这些其他产品相比,是否存在巨大优势?Cassandra、Greenplum和Vertica都可以处理大量数据,但它们的处理方式非常不同。
以下是一些虚构的使用案例,展示每个数据库的优势:
使用Cassandra进行:
tweets.insert(key:user, data:blob);
tweets.get(key:user)
使用Greenplum进行以下操作:
begin;
update account set balance = balance - 10 where account_id = 1;
update account set balance = balance + 10 where account_id = 2;
commit;
使用Vertica可以用于:
select sum(balance)
over (partition by region order by account rows unbounded preceding)
from transactions;
我在电信行业工作,处理大量数据集和复杂的EDW(企业数据仓库)模型。我们最初使用的是Teradata,在几年内表现良好。然后数据指数级增长,正如您所知道的,Teradata的扩展非常昂贵。因此,我们评估了EMC的Greenplum、Oracle Exadata、HP Vertica和IBM Netteza。
在速度方面,生成20个报告的排名如下:1. Vertica,2. Netteza,3. Greenplum,4. Oracle。
在压缩比方面,Vertica具有天然优势。在其他人中,IBM也不错。按照基准测试,EMC和Oracle最差。像往常一样,这两个公司都想销售大量存储和硬件。
可扩展性:所有系统都能够很好地扩展。
加载时间:EMC在这方面表现最佳,其他系统(Teradata、Vertica、Oracle、IBM)也表现不错。
并发用户查询:Vertica、EMC、Greenplum,然后只有IBM。相对来说,Oracle Exadata在任何类型的查询情况下都比较慢,但比其老式10g要好得多。
价格:Teradata > Oracle > IBM > HP > EMC
注意:需要进行苹果与苹果的比较,即同样数量的核心、内存、数据量和报告。
我们选择了Vertica,因为其具有独立于硬件的定价模型、更低的价格和良好的性能。现在所有40多个用户都可以愉快地生成报告,而不需要等待,而且一切都适合成本较低的HP DL380服务器。它非常适用于OLAP / EDW用例。
所有这些分析仅针对EDW /分析 / OLAP情况。对于所有的OLTP、丰富的PLSQL、连接等,我仍然是Oracle的粉丝。Exadata提供了不错的混合工作负载,但性价比不合理,仍需要将10g代码迁移到Exadata最佳实践(类似于MMP,批量处理等)中,而且比他们声称的耗时。
Pivotal,前身为Greenplum,是EMC、VMware和GE的资金充裕的分拆公司。Pivotal的市场对象是需要进行复杂分析和高速ETL的多PB级数据库的企业(以及国土安全机构)。Greenplum起源于基于Map Reduced MPP重新设计过的PostgreSQL DB,并后来增加了列式支持和HDFS。它将SQL与NoSQL的优点融合在一起,形成了NewSQL。
特点: