如何在AWS Glue中检查Spark和Hadoop的版本？

Question

3

我正在使用AWS（基本支持计划）进行操作。我想知道AWS Glue作业中使用的Spark和Hadoop（HDFS）版本，以便我可以在本地机器上设置相同的环境进行开发。

或者，如果我知道Spark的版本，则对应的AWS Glue作业使用哪个版本的Hadoop，反之亦然。

由于我使用的是基本支持计划，因此无法向支持中心提出案例。

请问在AWS Glue作业中我可以在哪里查看Spark和Hadoop的版本？

非常感谢您的帮助和建议。谢谢！

- Tarun Khaneja

2个回答

0

AWS Glue支持Apache Spark 2.2.1，如此文档所述。

AWS在任何地方都没有为AWS Glue记录Hadoop版本。然而，由于AWS Glue实际上是由AWS EMR支持的，因此Hadoop版本将为2.8.x。

根据以下文档或AWS EMR上的Hadoop/Spark，我假设它是2.8.3。

其中发布标签5.12.2具有Spark 2.2.1和Hadoop 2.8.3。

- Harsh Bafna

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- notNull · Accepted Answer

如果您正在使用Spark > 2.0，则： 1.在Pyspark中： 获取Spark版本：

print("Spark Version:" + spark.version)

在Spark < 2.0中：

sc.version

获取Hadoop版本信息：

print("Hadoop version: " + sc._gateway.jvm.org.apache.hadoop.util.VersionInfo.getVersion())

2.在Scala中:

Spark版本:

println ("Spark Version:" + spark.version)

在 Spark < 2.0 中：

sc.version

Hadoop 版本：

println("Hadoop version: " + org.apache.hadoop.util.VersionInfo.getVersion())