使用Pandas按照一列对两个DataFrame进行比较，返回三种不同的输出结果

Question

使用Pandas按照一列对两个DataFrame进行比较，返回三种不同的输出结果

8

我是Python和编程的初学者。我需要帮助比较两个数据帧，它们长度不同，并且除一个列标签之外，其他列标签也不同。在这两个数据集之间相同的列是我想通过比较数据帧来实现的列。我的数据如下：

    df:  'fruits'  'trees'      'sports'    'countries'  

          bananas   mongolia     basketball    Spain
          grapes    Oak          rugby         Thailand
          oranges   Osage Orange baseball      Egypt
          apples    Maple        golf          Chile

    df2: 'cars'  'flowers'     'countries'    'vegetables'

          Audi    Rose          Spain           Carrots
          BMW     Tulip         Nigeria         Celery
          Honda   Dandelion     Egypt           Onion

我希望能够基于“countries”列比较这两个数据框，并创建三个独立的输出，每个输出都在自己的数据框中。我一直在使用Pandas，并使用pd.concat将df1和df2合并成一个数据框。即使它们不匹配，我也希望保留其余数据框的行。

以下是我期望的输出：

输出# 1：df中不包含在df2中的值：

    d3:  'fruits'  'trees'      'sports'    'countries'  

          grapes    Oak            rugby         Thailand
          apples    Maple          golf          Chile

输出# 2：df2中不在df中的值

        df4: 'cars'  'flowers'   'countries'    'vegetables'

              BMW     Tulip       Nigeria         Celery

输出# 3：df和df2中的值（结合不同数据帧的列）。

df5: 'fruits'  'trees' 'sports'  'cars' 'flowers' 'countries' 'vegetables'  

  bananas   mongolia  basketball   Audi    Rose      Spain    Carrots 
Oranges  Osage Orange baseball    Honda   Dandelion  Egypt    Onion

希望这一切都说得通。我尝试了很多不同的方法（isin，DataFrame.diff和.difference，df-df2，numpy数组等），我已经搜索了所有地方，但是找不到我正在寻找的确切内容。非常感谢任何帮助！谢谢！

- J.L.

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- piRSquared · Accepted Answer

设置参考

from StringIO import StringIO
import pandas as pd

txt1 = """fruits,trees,sports,countries
bananas,mongolia,basketball,Spain
grapes,Oak,rugby,Thailand
oranges,Osage,Orange baseball,Egypt
apples,Maple,golf,Chile"""

txt2 = """cars,flowers,countries,vegetables
Audi,Rose,Spain,Carrots
BMW,Tulip,Nigeria,Celery
Honda,Dandelion,Egypt,Onion"""

df = pd.read_csv(StringIO(txt1))

df2 = pd.read_csv(StringIO(txt2))

解决方案

def outer_parts(df1, df2):
    df3 = df1.merge(df2, indicator=True, how='outer')
    return {n: g.drop('_merge', 1) for n, g in df3.groupby('_merge')}


dfs = outer_parts(df, df2)

Demonstration

dfs['both']

dfs['left_only']

dfs['right_only']