基于Pandas在条件下过滤重复行

Question

3

我有一个数据框，其中基于 "Reason" 列存在重复行。

No   Reason  
123  -
123  -
345  Bad Service
345  -
546  Bad Service
546  Poor feedback

我已根据以下条件对这些行进行了子集筛选：

df_duplicates = df[df['No'].duplicated() == True]

我正试图循环遍历上述行的子集，并在相应的重复行的“原因”既缺失时，过滤它们；或者任何一个缺失时，也要过滤。

因此结果将是：

No   Reason  
123  -
123  -
345  Bad Service
345  -

我尝试循环并按对处理。不确定是否有一种在 Pandas 中高效完成此操作的方法。如有线索，请提供帮助。

- user3447653

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- anky · Accepted Answer

仅在相应重复行的“原因”缺失时，或者任何一个原因缺失时，过滤它们。

您可以执行以下操作：

df[df['Reason'].eq('-').groupby(df['No']).transform('any')]
#or df[df['Reason'].isna().groupby(df['No']).transform('any')]

    No       Reason
0  123            -
1  123            -
2  345  Bad Service
3  345            -