如何使用Pyspark获取Parquet文件的列名和它们的数据类型？

Question

8

我在我的Hadoop集群上有一个Parquet文件，我想捕获列名和它们的数据类型，并将其写入文本文件。如何使用Pyspark获取Parquet文件的列名和它们的数据类型。

- Shubham Mishra

2个回答

3

使用dataframe.printSchema() - 以树形格式打印出模式。

df.printSchema() root |-- age: integer (nullable = true) |-- name: string (nullable = true)

您可以将程序的输出重定向并将其捕获在文本文件中。

- tranquilram

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- zero323 · Accepted Answer

您可以直接阅读文件并使用 schema 访问个别的 fields:

sqlContext.read.parquet(path_to_parquet_file).schema.fields