Pandas保留具有最高值的重复项

Question

11

我有类似于以下数据:

id value duplicate
a   200  yes
a   12   yes
b   42   yes
c   12   no
b   532  yes
b   21   yes
...

为了跟踪重复项，我使用 df['duplicate'] = df.duplicated('id', keep=False)。然而，我想保留具有最高 value 的重复项，并标记或删除其他重复项。有什么建议吗？

- As3adTintin

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- As3adTintin · Accepted Answer

啊，我不知道为什么我没有首先考虑到这个方法。 df.sort(['id', 'value']) df['is_duplicated'] = df.duplicated('id', keep='first')

抱歉！