理解Spark版本

3
当我在shell中输入时,控制台显示。但是当我输入时,它会显示。我想了解它们之间的区别以及pyspark实际运行的版本是什么?每当我运行py脚本时,我都会使用命令。

pyspark是一个使用Python开发的API,用于Spark编程和以Python风格编写Spark应用程序,但底层执行引擎是Spark。 - wandermonk
你正在运行哪个版本的Cloudera CDH?我的假设是应该还有一个'spark-submit',它应该显示版本为1.6.0。 - B. Griffiths
2个回答

2
在执行Pyspark之前,请尝试设置您的spark版本环境变量。请在终端上运行以下命令:
SPARK_MAJOR_VERSION=2 pyspark

抱歉,但这并没有回答我的问题。当我通过shell进入pyspark时,控制台显示版本1.6。但是,当我使用spark2-submit --version明确检查版本时,它显示版本2.2。我的问题是为什么会有差异,以及在我运行pyspark脚本时实际使用的是哪个版本? - Harish
1
你的机器上安装了两个Spark版本。因此,默认情况下,它将使用Spark 1.6来运行pyspark,除非你设置SPARK_MAJOR_VERSION=2或直接调用pyspark2。 - tricky

0
当我输入 pyspark2 时,它显示版本为 2.2.0。这与 spark2-submit --version 相匹配。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接