我想基于子集来使用
例如...
df.drop_duplicates()
,但同时也忽略特定列具有的值。例如...
v1 v2 v3
ID
148 8751704.0 G dog
123 9082007.0 G dog
123 9082007.0 G dog
123 9082007.0 G cat
我想去除重复的[ID, v1]
,但是忽略v3
等于cat
的情况,代码如下:
full_df.drop_duplicates([ID, v1], inplace=True, conditional=exclude v3 = cat)
希望这样说得清楚。
KeyError: ('ID', 'v1')
。 - Bobpd.Index.duplicated
的解决方案更快,因为您不必使用reset_index
。但我不确定,因为我还没有用各种大小的DataFrame进行过测试。 无论如何,我认为这两个解决方案都很好。 - ansev