在pandas中,可以通过
但是当它是Spark dataframe的列时,该怎么做呢?
例如,调用程序有一个Spark dataframe:
这个程序调用了我的函数:
在
如果是pandas dataframe,我们可以使用以下代码:
column.name
来实现。但是当它是Spark dataframe的列时,该怎么做呢?
例如,调用程序有一个Spark dataframe:
spark_df
。>>> spark_df.columns
['admit', 'gre', 'gpa', 'rank']
这个程序调用了我的函数:
my_function(spark_df['rank'])
在
my_function
中,我需要列的名称,即'rank'
。如果是pandas dataframe,我们可以使用以下代码:
>>> pandas_df['rank'].name
'rank'
pyspark.sql.functions.col
按名称访问列。例如,df.filter(col(var_name) > 1)
。 - shuaiyuancnmyfunc(df, name)
,这样你就可以在函数中访问name
。当你需要在数据框中使用该列时,可以使用df[name]
。 - shuaiyuancnDataframe.Column.__repr__
。 - shuaiyuancn