我有一个数据框,长这样:
Name State Gender OtherVariables
Sam CO M
Sam CO F
Sam CO M
Jim CO M
Jim WY M
以下代码可以给出所有重复的名字(Sam和Jim):
def list_duplicates(seq):
seen = set()
seen_add = seen.add
seen_twice = set(x for x in seq if x in seen or seen_add(x))
return list(seen_twice)
dups = list_duplicates(df.name)
但我想要的是:
Name State Gender
Sam CO M
我只想要那些具有相同姓名、州和性别的行。所以不应该出现Jim。每行的“其他变量”都不同。