Spark Submit问题

3

我将尝试使用Spark submit在Spark集群上运行一个fat jar包。我使用了AWS上Spark捆绑包中的"spark-ec2"可执行文件来创建集群。

我要使用的命令来运行jar文件是:

bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar

一开始,它提示我至少要设置一个HADOOP_CONF_DIRYARN_CONF_DIR环境变量,否则会出现错误。我不知道该设置什么,所以我使用了以下命令:

export HADOOP_CONF_DIR=/mapreduce/conf

现在错误已经改变为

Could not load YARN classes. This copy of Spark may not have been compiled with YARN support.
Run with --help for usage help or --verbose for debug output

家目录结构如下:
ephemeral-hdfs  hadoop-native  mapreduce  persistent-hdfs  scala  spark  spark-ec2  src1  tachyon

我甚至将YARN_CONF_DIR变量设置为与HADOOP_CONF_DIR相同的值,但错误消息并未改变。我无法找到任何强调此问题的文档,大多数文档只提到这两个变量,并没有进一步的细节说明。

3个回答

3

1

0

--master参数应该是:--master spark://hostname:7077,其中hostname是您的Spark主服务器的名称。您还可以在spark-defaults.conf文件中指定此值为spark.master,并在使用Spark submit时省略--master参数。包括--master参数将覆盖在spark-defaults.conf文件中设置的值(如果存在)。

参考资料:http://spark.apache.org/docs/1.3.0/configuration.html


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接