假设我有两个数据框:
df1:
A
0 a
1 b
df2:
A
0 a
1 c
我希望结果是两个框架的并集,并且有一个额外的列显示该行属于的源数据框。如果有重复,应删除重复项,并且相应的额外列应显示两个源:
A B
0 a df1, df2
1 b df1
2 c df2
我可以按照以下方式获取已去重的连接数据框(df3):
import pandas as pd
df3=pd.concat([df1,df2],ignore_index=True).drop_duplicates().reset_index(drop=True)
我无法想出/找到一种方法来控制元素放置的位置。我该如何添加额外的列?
非常感谢任何提示。
df1.merge(df2, on=['A'], how='inner').assign(B='df1, df2')
(因为交集意味着两个数据框都有该值) - cs95