假设我有以下数据框:
我希望您创建以下数据框:
dummy_data = [('a',1),('b',25),('c',3),('d',8),('e',1)]
df = sc.parallelize(dummy_data).toDF(['letter','number'])
我希望您创建以下数据框:
代码如下:
[('a',0),('b',2),('c',1),('d',3),('e',0)]
我的做法是将它转换为rdd
,并使用zipWithIndex
函数,然后联接结果:
convertDF = (df.select('number')
.distinct()
.rdd
.zipWithIndex()
.map(lambda x:(x[0].number,x[1]))
.toDF(['old','new']))
finalDF = (df
.join(convertDF,df.number == convertDF.old)
.select(df.letter,convertDF.new))
在dataframes中是否有类似于zipWithIndex
的功能?还有其他更有效的方法来完成此任务吗?