我希望在PySpark DataFrame中创建一个新列,其中N个重复的行号与数据帧中的其他列无关。
原始数据:
原始数据:
name year
A 2010
A 2011
A 2011
A 2013
A 2014
A 2015
A 2016
A 2018
B 2018
B 2019
我想要一个新列,其中包含重复的行号,假设N=3。
期望输出:
name year rownumber
A 2010 1
A 2011 1
A 2011 1
A 2013 2
A 2014 2
A 2015 2
A 2016 3
A 2018 3
B 2018 3
B 2019 4