所以,我有两个数据集(我是指数据帧)如下: 数据帧1:
name, age, id, acctno
abc, 23, 1001, 238238
dhd, 22, 2001, 299299
ddg, 30, 2920, 101010
ssd, 53, 1901, 238003
ggh, 52, 2221, 222222
eet, 50, 9920, 111111
我们可以将其保存为population1.csv。
数据框2:
name, age, id, acctno
abc, 11, 1001, 238238
def, 55, 2001, 299299
xxy, 90, 2020, 101010
我们可以将其保存为population2.csv。
因此,我们可以按照以下方式读取数据:
df1 = pd.read_csv('population1.csv')
df2 = pd.read_csv('population2.csv')
并且,我希望得到以下结果。
res = df1-df2
基于
id
和acctno
的公共列,我们可以看到dataframe2
在dataframe1
中。但是dataframe1
有一些不同于dataframe2
的记录。基于一列对两个数据框进行子集操作很简单,但是想知道如何基于两列对两个数据框进行子集操作。
因此,结果应该如下所示。
ssd, 53, 1901, 238003
ggh, 52, 2221, 222222
eet, 50, 9920, 111111
df2
中打错了字。我认为第四行的id
应该是2920
。 - piRSquared