我正在使用Spark 1.3.1。
我尝试在Python中查看Spark dataframe列的值。对于一个Spark dataframe,我可以使用df.collect()
来查看dataframe的内容,但是我找不到类似的方法来查看Spark dataframe列。
例如,dataframe df
包含名为'zip_code'
的列。因此我可以使用df['zip_code']
,但它会返回一个pyspark.sql.dataframe.Column
类型,但我找不到一种方法来查看df['zip_code']
中的值。
Column
并不受任何执行计划的限制,它只是一个符号而已。 - zero323Column
本身并不包含任何数据,它只代表了一个或多个特定DataFrame
列的一系列零个或多个转换。因此,在没有上下文的情况下引用它是没有意义的,必须在生成它的DataFrame
上下文中使用。对吧? - Jordan Pilat$"foo"
。它创建了一个ColumnName
类的对象,该类是Column
的子类。单独它没有意义。我可以使用不同的数据框来评估它并获得不同的结果(或异常)。如果你曾经使用过 R,请考虑formulas
。 - zero323