我正在从两个不同的数据库中下载两个数据集,需要将它们连接起来。当我将它们分别存储为CSV文件时,每个文件的大小约为500MB。分别载入内存没有问题,但是当我同时载入两个文件时,有时会出现内存错误。当我使用pandas合并它们时,我肯定会遇到麻烦。
有什么最好的方法可以对它们进行外部连接(outer join),以避免内存错误?我手头没有任何数据库服务器,但如果有帮助的话,我可以在我的计算机上安装任何开源软件。理想情况下,我仍然希望仅使用pandas解决它,但不确定这是否可能。
为了澄清:合并指的是外部连接。每个表都有两行:产品和版本。我想检查左表、右表和两个表中都有哪些产品和版本。我用以下代码实现:
pd.merge(df1,df2,left_on=['product','version'],right_on=['product','version'], how='outer')