Spark Submit问题

Question

Spark Submit问题

hadoopamazon-web-servicesapache-sparkhadoop-yarn

3

我将尝试使用Spark submit在Spark集群上运行一个fat jar包。我使用了AWS上Spark捆绑包中的"spark-ec2"可执行文件来创建集群。

我要使用的命令来运行jar文件是：

bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar

一开始，它提示我至少要设置一个HADOOP_CONF_DIR或YARN_CONF_DIR环境变量，否则会出现错误。我不知道该设置什么，所以我使用了以下命令：

export HADOOP_CONF_DIR=/mapreduce/conf

现在错误已经改变为

Could not load YARN classes. This copy of Spark may not have been compiled with YARN support.
Run with --help for usage help or --verbose for debug output

家目录结构如下：

ephemeral-hdfs  hadoop-native  mapreduce  persistent-hdfs  scala  spark  spark-ec2  src1  tachyon

我甚至将YARN_CONF_DIR变量设置为与HADOOP_CONF_DIR相同的值，但错误消息并未改变。我无法找到任何强调此问题的文档，大多数文档只提到这两个变量，并没有进一步的细节说明。

- Akshay Gupta

3个回答

1

从https://spark.apache.org/downloads.html下载预编译的Spark，支持Hadoop 2.X版本。

- Jishnu Prathap

0

--master参数应该是：--master spark://hostname:7077，其中hostname是您的Spark主服务器的名称。您还可以在spark-defaults.conf文件中指定此值为spark.master，并在使用Spark submit时省略--master参数。包括--master参数将覆盖在spark-defaults.conf文件中设置的值（如果存在）。

参考资料：http://spark.apache.org/docs/1.3.0/configuration.html

- billz

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Bacon · Accepted Answer

你需要使用Yarn编译Spark才能使用它。

按照这里解释的步骤操作：https://spark.apache.org/docs/latest/building-spark.html Maven:

build/mvn -Pyarn -Phadoop-2.x -Dhadoop.version=2.x.x -DskipTests clean package

SBT:

build/sbt -Pyarn -Phadoop-2.x assembly

您可以在此处下载预编译版本：http://spark.apache.org/downloads.html（选择“为Hadoop预构建的版本”）。