我接触过Teradata。我从未接触过Hadoop,但自从昨天起,我开始研究它。通过对两者的描述,它们似乎是可以互换使用的,但有些论文中写到,它们用于不同的目的。但我发现所有资料都含糊不清,让我感到困惑。
有没有人同时拥有这两者的经验?它们之间的严重区别是什么?
简单来说,我想构建ETL,将数十亿行原始数据转换并组织到DWH,然后在其上进行一些资源密集型的分析。为什么要使用TD?为什么选择Hadoop?或者为什么不选它们?
我接触过Teradata。我从未接触过Hadoop,但自从昨天起,我开始研究它。通过对两者的描述,它们似乎是可以互换使用的,但有些论文中写到,它们用于不同的目的。但我发现所有资料都含糊不清,让我感到困惑。
有没有人同时拥有这两者的经验?它们之间的严重区别是什么?
简单来说,我想构建ETL,将数十亿行原始数据转换并组织到DWH,然后在其上进行一些资源密集型的分析。为什么要使用TD?为什么选择Hadoop?或者为什么不选它们?
我认为题为“MapReduce 和并行数据库管理系统:朋友还是敌人”的这篇文章做了很好的工作,描述了每种技术最适合的情况。简而言之,Hadoop 用于存储非结构化数据和运行并行转换以“消毒”传入数据方面表现出色,而DBMS则擅长快速执行复杂查询。
我不是这个领域的专家,但在coursera.com的数据科学入门课程中,有一个名为"比较MapReduce和数据库"以及一个关于MapReduce部分中并行数据库的讲座。
以下是此讲座的总结,比较了MapReduce与RDBMS(不一定是并行RDMBS)。 需要记住的一点是,如果包括像PIG,Hive等扩展到Hadoop的扩展,比较就会有所不同。我将在括号()中放入添加了这些功能/属性的MapReduce扩展。
一些RDBMS具有但原生MapReduce没有的功能/属性:
相对于常规RDBMS而言,MapReduce(不一定是并行RDMBS)的优势:
首先,Vanilla Apache Hadoop是100%开源的。但是,如果您需要商业支持以及咨询服务,可以选择Cloudera、MapR、HortonWorks等公司。
Hadoop由不断增长的社区支持,定期修复错误并进行改进。Hadoop存储模型HDFS基于Google的GFS架构,已被证明可以处理大量数据。此外,Hadoop分析模型Map Reduce基于Google的Map Reduce Model。
像Facebook、Yahoo、Twitter、EBay等科技巨头使用Hadoop实时存储和分析大量数据,也可以被动地存储。
关于您的问题ETL系统,请阅读这些幻灯片。
好了,现在为什么选择Hadoop?
好了,现在为什么选择TD?
商业支持