这其实很简单,但是我理解不了。假设有下面这个数据框,我想只保留'y'列中有重复值的行:
>>> df
x y
x y
0 1 1
1 2 2
2 3 2
3 4 3
4 5 3
5 6 3
6 7 5
7 8 2
所需输出如下:
>>> df
x y
1 2 2
2 3 2
3 4 3
4 5 3
5 6 3
7 8 2
我尝试了这个:
df[~df.duplicated('y')]
但是我得到了这个:
x y
0 1 1
1 2 2
3 4 3
6 7 5