我正在尝试使用PySpark为两个数据框(df1和df2)创建自定义连接(类似于这个),代码如下:
my_join_udf = udf(lambda x, y: isJoin(x, y), BooleanType())
my_join_df = df1.join(df2, my_join_udf(df1.col_a, df2.col_b))
我得到的错误信息是:
java.lang.RuntimeException: Invalid PythonUDF PythonUDF#<lambda>(col_a#17,col_b#0), requires attributes from more than one child
有没有一种方法可以编写一个PySpark UDF,可以处理来自两个不同数据框的列?