我有几个数据框,它们的列和行索引相同。对于每个索引,我想要计算每列中值的平均值(如果这些是矩阵,我只需将它们相加并除以矩阵数量即可)。
以下是一个示例。
v1 = pd.DataFrame([['ind1', 1, 2, 3], ['ind2', 4, 5, 6]], columns=['id', 'c1', 'c2', 'c3']).set_index('id')
v2 = pd.DataFrame([['ind1', 2, 3, 4], ['ind2', 6, 1, 2]], columns=['id', 'c1', 'c2', 'c3']).set_index('id')
v3 = pd.DataFrame([['ind1', 1, 2, 1], ['ind2', 1, 1, 3]], columns=['id', 'c1', 'c2', 'c3']).set_index('id')
在实际情况下,索引和列可以按不同顺序排列。
针对这种情况,结果将为
(ind1,c1的值为(1 + 1 + 2)/3
,ind2,c2的值为(1 + 5 + 1)/3
等等)。
目前,我使用循环进行此操作:
dfs = [v1, v2, v3]
cols= ['c1', 'c2', 'c3']
data = []
for ind, _ in dfs[0].iterrows():
vals = [sum(df.loc[ind][col] for df in dfs) / float(len(dfs)) for col in cols]
data.append([ind] + vals)
pd.DataFrame(data, columns=['id'] + cols).set_index('id')
但对于列数较多的大型数据框,这显然是低效的。那么我该如何在不使用循环的情况下实现这一点呢?
pd.Panel({'v1': v1, 'v2': v2, 'v3': v3}).mean(axis=0)
,但我也会选择concat。 - ayhan