如何在AWS Glue中检查Spark和Hadoop的版本?

3
我正在使用AWS(基本支持计划)进行操作。我想知道AWS Glue作业中使用的Spark和Hadoop(HDFS)版本,以便我可以在本地机器上设置相同的环境进行开发。
或者,如果我知道Spark的版本,则对应的AWS Glue作业使用哪个版本的Hadoop,反之亦然。
由于我使用的是基本支持计划,因此无法向支持中心提出案例。
请问在AWS Glue作业中我可以在哪里查看Spark和Hadoop的版本?
非常感谢您的帮助和建议。谢谢!
2个回答

12
如果您正在使用Spark > 2.0,则: 1.在Pyspark中: 获取Spark版本:
print("Spark Version:" + spark.version)

Spark < 2.0中:

sc.version

获取Hadoop版本信息:

print("Hadoop version: " + sc._gateway.jvm.org.apache.hadoop.util.VersionInfo.getVersion())

2.在Scala中:

Spark版本:

println ("Spark Version:" + spark.version)

Spark < 2.0 中:

sc.version

Hadoop 版本:

println("Hadoop version: " + org.apache.hadoop.util.VersionInfo.getVersion())

2
太棒了。这救了我的命!太戏剧化了,哈哈,但还是谢谢你。 - NYCeyes

0

AWS Glue支持Apache Spark 2.2.1,如此文档所述

AWS在任何地方都没有为AWS Glue记录Hadoop版本。然而,由于AWS Glue实际上是由AWS EMR支持的,因此Hadoop版本将为2.8.x。

根据以下文档或AWS EMR上的Hadoop/Spark,我假设它是2.8.3。

AWS EMR Hadoop发布历史

AWS EMR Spark发布历史

其中发布标签5.12.2具有Spark 2.2.1和Hadoop 2.8.3。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接