例如在 Pandas 中,我会这样做:
data_df = (
pd.DataFrame(dict(col1=['a', 'b', 'c'], col2=['1', '2', '3']))
.pipe(lambda df: df[df.col1 != 'a'])
)
这类似于R语言中的管道符号%>%
在PySpark中是否有类似的东西?
pipe
?你想创建一个新列吗?添加新的列?对行/组/整个数据框进行转换或聚合? - MkWTFpipe(standardize_col_names)
是一个不错的选择。我的主要问题是关于pipe
,@someshwar-kale已经回答了。管道在Spark中是相应的事情。 - pettinato