我正在处理一个大型的Pandas数据框,其中有多列数据类似于这样:
A B C D
John Tom 0 1
Homer Bart 2 3
Tom Maggie 1 4
Lisa John 5 0
Homer Bart 2 3
Lisa John 5 0
Homer Bart 2 3
Homer Bart 2 3
Tom Maggie 1 4
如何给每个重复的行分配唯一的ID?例如:
A B C D new_id
John Tom 0 1.2 1
Homer Bart 2 3.0 2
Tom Maggie 1 4.2 3
Lisa John 5 0 4
Homer Bart 2 3 5
Lisa John 5 0 4
Homer Bart 2 3.0 2
Homer Bart 2 3.0 2
Tom Maggie 1 4.1 6
我知道可以使用duplicate
来检测重复的行,但是我无法可视化哪些行在重复。我尝试过:
df.assign(id=(df.columns).astype('category').cat.codes)
df
然而,它并不起作用。我该如何获取唯一的ID以便检测重复行的组?
new_id
应该是 1、2、3、4、2 等等? - jpp