首先,让我们建立一个基准。解决这个问题最简单的方法是使用临时的“key”列:
pandas <= 1.1.X
def cartesian_product_basic(left, right):
return (
left.assign(key=1).merge(right.assign(key=1), on='key').drop('key', 1))
cartesian_product_basic(left, right)
pandas >= 1.2
left.merge(right, how="cross")
col1_x col2_x col1_y col2_y
0 A 1 X 20
1 A 1 Y 30
2 A 1 Z 50
3 B 2 X 20
4 B 2 Y 30
5 B 2 Z 50
6 C 3 X 20
7 C 3 Y 30
8 C 3 Z 50
这是如何工作的:两个DataFrame都赋予一个临时的“键”列,并赋相同的值(比如说1)。merge
然后在“键”上执行多对多连接。
虽然这个多对多连接技巧适用于相当大小的DataFrame,但在更大的数据上性能会相对较低。
更快速的实现需要使用NumPy。以下是一些著名的NumPy 1D笛卡尔积实现。我们可以基于这些高效的解决方案来得到我们所需的输出。然而,我的最爱是@senderle 的第一个实现。
def cartesian_product(*arrays):
la = len(arrays)
dtype = np.result_type(*arrays)
arr = np.empty([len(a) for a in arrays] + [la], dtype=dtype)
for i, a in enumerate(np.ix_(*arrays)):
arr[...,i] = a
return arr.reshape(-1, la)
泛化:在唯一或非唯一索引的数据帧上执行CROSS JOIN
免责声明
这些解决方案是针对非混合标量数据类型的数据帧进行优化的。如果处理混合数据类型,请自行承担风险!
此技巧适用于任何类型的数据帧。我们使用上述cartesian_product
计算数据帧的数字索引的笛卡尔积,将其用于重新索引数据帧,并且
def cartesian_product_generalized(left, right):
la, lb = len(left), len(right)
idx = cartesian_product(np.ogrid[:la], np.ogrid[:lb])
return pd.DataFrame(
np.column_stack([left.values[idx[:,0]], right.values[idx[:,1]]]))
cartesian_product_generalized(left, right)
0 1 2 3
0 A 1 X 20
1 A 1 Y 30
2 A 1 Z 50
3 B 2 X 20
4 B 2 Y 30
5 B 2 Z 50
6 C 3 X 20
7 C 3 Y 30
8 C 3 Z 50
np.array_equal(cartesian_product_generalized(left, right),
cartesian_product_basic(left, right))
True
同时,类似的情况也存在,
left2 = left.copy()
left2.index = ['s1', 's2', 's1']
right2 = right.copy()
right2.index = ['x', 'y', 'y']
left2
col1 col2
s1 A 1
s2 B 2
s1 C 3
right2
col1 col2
x X 20
y Y 30
y Z 50
np.array_equal(cartesian_product_generalized(left, right),
cartesian_product_basic(left2, right2))
True
这个解决方案可以推广到多个数据框。例如,
def cartesian_product_multi(*dfs):
idx = cartesian_product(*[np.ogrid[:len(df)] for df in dfs])
return pd.DataFrame(
np.column_stack([df.values[idx[:,i]] for i,df in enumerate(dfs)]))
cartesian_product_multi(*[left, right, left]).head()
0 1 2 3 4 5
0 A 1 X 20 A 1
1 A 1 X 20 B 2
2 A 1 X 20 C 3
3 A 1 X 20 D 4
4 A 1 Y 30 A 1
更进一步的简化
在处理仅限于两个DataFrames时,可以使用np.broadcast_arrays
来实现几乎相同水平的性能,而不需要涉及@senderle的cartesian_product
。
def cartesian_product_simplified(left, right):
la, lb = len(left), len(right)
ia2, ib2 = np.broadcast_arrays(*np.ogrid[:la,:lb])
return pd.DataFrame(
np.column_stack([left.values[ia2.ravel()], right.values[ib2.ravel()]]))
np.array_equal(cartesian_product_simplified(left, right),
cartesian_product_basic(left2, right2))
True
性能比较
在一些带有唯一索引的构想数据帧上进行基准测试,我们得到:
![enter image description here](https://istack.dev59.com/S92LX.webp)
请注意,时间可能因设置、数据和适用的cartesian_product
辅助函数的选择而有所不同。
性能基准测试代码
这是计时脚本。这里调用的所有函数都已经定义过了。
from timeit import timeit
import pandas as pd
import matplotlib.pyplot as plt
res = pd.DataFrame(
index=['cartesian_product_basic', 'cartesian_product_generalized',
'cartesian_product_multi', 'cartesian_product_simplified'],
columns=[1, 10, 50, 100, 200, 300, 400, 500, 600, 800, 1000, 2000],
dtype=float
)
for f in res.index:
for c in res.columns:
left2 = pd.concat([left] * c, ignore_index=True)
right2 = pd.concat([right] * c, ignore_index=True)
stmt = '{}(left2, right2)'.format(f)
setp = 'from __main__ import left2, right2, {}'.format(f)
res.at[f, c] = timeit(stmt, setp, number=5)
ax = res.div(res.min()).T.plot(loglog=True)
ax.set_xlabel("N");
ax.set_ylabel("time (relative)");
plt.show()
继续阅读
跳转到Pandas合并101中的其他主题以继续学习:
* 您在此处
cross join
函数非常好,可以匹配 SQL 中的所有 join 函数。https://github.com/pandas-dev/pandas/issues/5401 - BENY