如何使用Pyspark获取Parquet文件的列名和它们的数据类型?

8

我在我的Hadoop集群上有一个Parquet文件,我想捕获列名和它们的数据类型,并将其写入文本文件。如何使用Pyspark获取Parquet文件的列名和它们的数据类型。

2个回答

11

您可以直接阅读文件并使用 schema 访问个别的 fields:

sqlContext.read.parquet(path_to_parquet_file).schema.fields

3
使用dataframe.printSchema() - 以树形格式打印出模式。

df.printSchema() root |-- age: integer (nullable = true) |-- name: string (nullable = true)

您可以将程序的输出重定向并将其捕获在文本文件中。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接