Hadoop和Spark有什么区别？

Question

Hadoop和Spark有什么区别？

hadoopapache-spark

3

随着Spark在市场上的不断发展，我可以看到Spark在以下方面比Hadoop更具优势：

机器学习中的迭代算法
交互式数据挖掘和数据处理
Spark是一个完全与Apache Hive兼容的数据仓库系统，可以比Hive快100倍。
流处理：日志处理和欺诈检测，用于警报、聚合和分析
传感器数据处理：从多个来源获取和连接数据时，内存数据集非常有用，因为它们易于处理且速度快。

我的问题是：

Spark会在未来取代Hadoop吗？
Hadoop可以同时工作，而Spark可以并行运行吗？（这是真的吗？）

- Roshan Bagdiya

3

抱歉，这是一个表述不太清楚的问题。你想问什么？是Hadoop和Spark之间的区别，还是Spark是否会替代Hadoop？或者是与并行性有关的问题？（"Concurrent"和"parallel"意思相同）。Stack Overflow不适合进行类似于“大家如何看待Spark？”这样的讨论。 - Daniel Darabos

2个回答

4

今天的Hadoop是一个技术集合，但其本质上是一个分布式文件系统（HDFS）和一个分布式资源管理器（YARN）。Spark是一个分布式计算框架，旨在取代Map/Reduce——另一个分布式计算框架，曾经与Hadoop同义。

具体而言，Spark不会取代Hadoop，但可能会取代Map/Reduce和Hadoop。Map/Reduce和Spark都是分布式系统（并行运行），但为了向后兼容，在YARN出现之前，Map/Reduce是Hadoop的资源管理框架，并且随着Hadoop一起提供。

- Arnon Rotem-Gal-Oz

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- eugenio calabrese · Accepted Answer

Spark与Hadoop不同之处在于，它允许您将数据摄取、处理和实时分析集成到一个工具中。此外，Spark MapReduce框架与标准Hadoop MapReduce的区别在于，在Spark中，中间MapReduce结果被缓存，并且RDD（分布式集合的抽象，具有容错性）可以在需要重复使用相同结果（迭代算法、按组等）时保存在内存中。

我的答案非常肤浅，没有完全回答您的问题，只是指出了一些主要的区别（实际上还有更多）。Spark和Databricks的官方网站非常详细地记录了这个问题的答案。

https://databricks.com/spark/about

http://spark.apache.org/faq.html