Hadoop的HDFS与Spark

7
我是一个新手,正在尝试在Spark中设置一个最小的两节点集群。但我仍然有些困惑:我是不是必须首先搭建完整的Hadoop安装包,或者Spark已经内置了Hadoop版本?关于Spark的资料并没有真正解释清楚这一点。我了解到,Spark是作为Hadoop的扩展而设计的,而不是替代它,但如果它需要独立运行的Hadoop系统,对我来说并不清楚。我需要一个HDFS,那么只使用Hadoop的文件系统部分是否就足够了?请问有人能向我指出这个可能显而易见的问题吗?
1个回答

6

Apache Spark独立于Hadoop。Spark允许您使用不同的数据源(包括HDFS),并且能够在独立集群中运行,或者使用现有的资源管理框架(例如YARN、Mesos)。

因此,如果您只对Spark感兴趣,则无需安装Hadoop。


然而,如果您计划使用Hadoop,则必须针对Hadoop二进制文件编译Spark。有关更多信息,请参见:https://etushar89.wordpress.com/2014/12/28/building-apache-spark-against-specific-hadoop-version/ - Freddy
1
到目前为止,非常感谢您的帮助。 如果我想使用HDFS,我将不得不安装整个Hadoop软件包,尽管如果我只关心HDFS,我可能不必进行整个Hadoop配置步骤,对吗? - toobee
如果您要使用资源管理器(YARN),那么您也应该关注它。如果您将在独立模式下运行Spark,我理解您不需要它。 - Mikel Urkia
如果您想避免设置自己的集群,可以使用Amazon S3代替HDFS,并避免所有配置工作。 - Daniel Darabos
如果要使用HDFS,您需要完全配置好Hadoop。Hadoop是使HDFS可用的“操作系统”,没有Hadoop,您将无法访问HDFS。 - Freddy

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接