Hadoop和Spark有什么区别?

3
随着Spark在市场上的不断发展,我可以看到Spark在以下方面比Hadoop更具优势:
  1. 机器学习中的迭代算法
  2. 交互式数据挖掘和数据处理
  3. Spark是一个完全与Apache Hive兼容的数据仓库系统,可以比Hive快100倍。
  4. 流处理:日志处理和欺诈检测,用于警报、聚合和分析
  5. 传感器数据处理:从多个来源获取和连接数据时,内存数据集非常有用,因为它们易于处理且速度快。
我的问题是:
  1. Spark会在未来取代Hadoop吗?
  2. Hadoop可以同时工作,而Spark可以并行运行吗?(这是真的吗?)

3
抱歉,这是一个表述不太清楚的问题。你想问什么?是Hadoop和Spark之间的区别,还是Spark是否会替代Hadoop?或者是与并行性有关的问题?("Concurrent"和"parallel"意思相同)。Stack Overflow不适合进行类似于“大家如何看待Spark?”这样的讨论。 - Daniel Darabos
2个回答

8
Spark与Hadoop不同之处在于,它允许您将数据摄取、处理和实时分析集成到一个工具中。此外,Spark MapReduce框架与标准Hadoop MapReduce的区别在于,在Spark中,中间MapReduce结果被缓存,并且RDD(分布式集合的抽象,具有容错性)可以在需要重复使用相同结果(迭代算法、按组等)时保存在内存中。
我的答案非常肤浅,没有完全回答您的问题,只是指出了一些主要的区别(实际上还有更多)。Spark和Databricks的官方网站非常详细地记录了这个问题的答案。

https://databricks.com/spark/about

http://spark.apache.org/faq.html


4
今天的Hadoop是一个技术集合,但其本质上是一个分布式文件系统(HDFS)和一个分布式资源管理器(YARN)。Spark是一个分布式计算框架,旨在取代Map/Reduce——另一个分布式计算框架,曾经与Hadoop同义。
具体而言,Spark不会取代Hadoop,但可能会取代Map/Reduce和Hadoop。Map/Reduce和Spark都是分布式系统(并行运行),但为了向后兼容,在YARN出现之前,Map/Reduce是Hadoop的资源管理框架,并且随着Hadoop一起提供。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接