背景
我正在尝试合并两个大的CSV文件。
问题
假设我有一个像下面这样的Pandas DataFrame...
EntityNum foo ...
------------------------
1001.01 100
1002.02 50
1003.03 200
还有一个类似这样的...
EntityNum a_col b_col
-----------------------------------
1001.01 alice 7
1002.02 bob 8
1003.03 777 9
我很愿意像这样加入他们:
EntityNum foo a_col
----------------------------
1001.01 100 alice
1002.02 50 bob
1003.03 200 777
记住,最终结果中不需要b_col。我该如何使用Pandas完成这个任务?
使用SQL,我可能会这样做:
SELECT t1.*, t2.a_col FROM table_1 as t1
LEFT JOIN table_2 as t2
ON t1.EntityNum = t2.EntityNum;
搜索
我知道可以使用合并。这是我尝试过的:
import pandas as pd
df_a = pd.read_csv(path_a, sep=',')
df_b = pd.read_csv(path_b, sep=',')
df_c = pd.merge(df_a, df_b, on='EntityNumber')
但是当我试图避免一些不需要的列出现在最终数据框中时,我遇到了困难。