我有类似于以下数据:
id value duplicate
a 200 yes
a 12 yes
b 42 yes
c 12 no
b 532 yes
b 21 yes
...
为了跟踪重复项,我使用 df['duplicate'] = df.duplicated('id', keep=False)
。然而,我想保留具有最高 value
的重复项,并标记或删除其他重复项。有什么建议吗?
我有类似于以下数据:
id value duplicate
a 200 yes
a 12 yes
b 42 yes
c 12 no
b 532 yes
b 21 yes
...
为了跟踪重复项,我使用 df['duplicate'] = df.duplicated('id', keep=False)
。然而,我想保留具有最高 value
的重复项,并标记或删除其他重复项。有什么建议吗?
啊,我不知道为什么我没有首先考虑到这个方法。
df.sort(['id', 'value'])
df['is_duplicated'] = df.duplicated('id', keep='first')
抱歉!