我对Spark非常陌生,无法使其正常工作... 希望有一种简单的方法可以做到这一点... 我尝试的最佳方式是通过下表进行描述:(我需要获取“所需”列)
colA colB colC ref required
1 a1 b1 c1 colA a1
2 a2 b2 c2 colA a2
3 a3 b3 c3 colB b3
4 a4 b4 c4 colB b4
5 a5 b5 c5 colC c5
6 a6 b6 c6 colC c6
上面只是一个示例 - 在实际的例子中我有超过50列,因此使用条件语句并不可行...
我知道这可以很容易地在pandas中完成,例如:
df['required'] = df.apply(lambda x: x.loc[x.ref], axis=1)
或者
df['required'] = df.lookup(df.index, df.ref)
有什么建议可以在PySpark中完成这个任务吗?