Hadoop的HDFS与Spark

Question

Hadoop的HDFS与Spark

7

我是一个新手，正在尝试在Spark中设置一个最小的两节点集群。但我仍然有些困惑：我是不是必须首先搭建完整的Hadoop安装包，或者Spark已经内置了Hadoop版本？关于Spark的资料并没有真正解释清楚这一点。我了解到，Spark是作为Hadoop的扩展而设计的，而不是替代它，但如果它需要独立运行的Hadoop系统，对我来说并不清楚。我需要一个HDFS，那么只使用Hadoop的文件系统部分是否就足够了？请问有人能向我指出这个可能显而易见的问题吗？

- toobee

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Freddy · Accepted Answer

6

Apache Spark独立于Hadoop。Spark允许您使用不同的数据源（包括HDFS），并且能够在独立集群中运行，或者使用现有的资源管理框架（例如YARN、Mesos）。

因此，如果您只对Spark感兴趣，则无需安装Hadoop。

- Freddy

然而，如果您计划使用Hadoop，则必须针对Hadoop二进制文件编译Spark。有关更多信息，请参见：https://etushar89.wordpress.com/2014/12/28/building-apache-spark-against-specific-hadoop-version/ - Freddy

1

到目前为止，非常感谢您的帮助。如果我想使用HDFS，我将不得不安装整个Hadoop软件包，尽管如果我只关心HDFS，我可能不必进行整个Hadoop配置步骤，对吗？ - toobee

如果您要使用资源管理器（YARN），那么您也应该关注它。如果您将在独立模式下运行Spark，我理解您不需要它。 - Mikel Urkia

如果您想避免设置自己的集群，可以使用Amazon S3代替HDFS，并避免所有配置工作。 - Daniel Darabos

如果要使用HDFS，您需要完全配置好Hadoop。Hadoop是使HDFS可用的“操作系统”，没有Hadoop，您将无法访问HDFS。 - Freddy