使用Pandas对分组列进行逐行累计平均值

Question

使用Pandas对分组列进行逐行累计平均值

5

我想创建多列，显示按组分组的列的累积平均值。这是一些样例数据：

import pandas as pd

data = [[1, 4, 6, 10, 15, 40, 90, 100], [2, 5, 3, 11, 25, 50, 90, 120], [3, 7, 9, 14, 35, 55, 100, 120]]
df = pd.DataFrame(data, columns=['a1', 'a2', 'a3', 'a4', 'b1', 'b2', 'b3', 'b4'])

   a1  a2  a3  a4  b1  b2   b3   b4
0   1   4   6  10  15  40   90  100
1   2   5   3  11  25  50   90  120
2   3   7   9  14  35  55  100  120

我想要生成以下新列：

- 新列 a1_2 是按行计算列 a1 和 a2 的均值得到的。 - 新列 a1_3 是按行计算列 a1、a2 和 a3 的均值得到的。 - 新列 a1_4 是按行计算列 a1、a2、a3 和 a4 的均值得到的。

对于具有 b 的分组列也应该是同样的操作。当然，您可以手动完成此操作，但当变量太多时这并不理想。以下是期望的输出：

df['a1_2'] = df[['a1', 'a2']].mean(axis=1)
df['a1_3'] = df[['a1', 'a2', 'a3']].mean(axis=1)
df['a1_4'] = df[['a1', 'a2', 'a3', 'a4']].mean(axis=1)
df['b1_2'] = df[['b1', 'b2']].mean(axis=1)
df['b1_3'] = df[['b1', 'b2', 'b3']].mean(axis=1)
df['b1_4'] = df[['b1', 'b2', 'b3', 'b4']].mean(axis=1)

   a1  a2  a3  a4  b1  b2   b3   b4  a1_2      a1_3  a1_4  b1_2       b1_3   b1_4
0   1   4   6  10  15  40   90  100   2.5  3.666667  5.25  27.5  48.333333  61.25 
1   2   5   3  11  25  50   90  120   3.5  3.333333  5.25  37.5  55.000000  71.25 
2   3   7   9  14  35  55  100  120   5.0  6.333333  8.25  45.0  63.333333  77.50

我想知道是否有一种自动化的方法来完成这个任务？

- Quinten

3个回答

3

groups   = df.groupby(lambda col: col[0], axis=1)
cummeans = (groups.cumsum(axis=1).div(groups.cumcount().add(1))
                  .filter(regex="[^1]$")
                  .rename(lambda col: re.sub(r"(\d+)$", r"1_\1", col), axis=1))
result   = df.join(cummeans)

获取由列的第一个字符（或者其他模式决定的方式）确定的组
获取累积平均值=累加和/累计计数+1
过滤掉第一个累积平均值，例如：a1_1等等
在累积平均值列名中插入“1_”
与原始df连接

In [19]: groups = df.groupby(lambda col: col[0], axis=1)

In [20]: cummeans = groups.cumsum(axis=1).div(groups.cumcount().add(1))

In [21]: cummeans
Out[21]:
    a1   a2        a3    a4    b1    b2         b3     b4
0  1.0  2.5  3.666667  5.25  15.0  27.5  48.333333  61.25
1  2.0  3.5  3.333333  5.25  25.0  37.5  55.000000  71.25
2  3.0  5.0  6.333333  8.25  35.0  45.0  63.333333  77.50

In [22]: _.filter(regex="[^1]$")
Out[22]:
    a2        a3    a4    b2         b3     b4
0  2.5  3.666667  5.25  27.5  48.333333  61.25
1  3.5  3.333333  5.25  37.5  55.000000  71.25
2  5.0  6.333333  8.25  45.0  63.333333  77.50

In [23]: _.rename(lambda col: re.sub(r"(\d+)$", r"1_\1", col), axis=1)
Out[23]:
   a1_2      a1_3  a1_4  b1_2       b1_3   b1_4
0   2.5  3.666667  5.25  27.5  48.333333  61.25
1   3.5  3.333333  5.25  37.5  55.000000  71.25
2   5.0  6.333333  8.25  45.0  63.333333  77.50

In [24]: df.join(_)
Out[24]:
   a1  a2  a3  a4  b1  b2   b3   b4  a1_2      a1_3  a1_4  b1_2       b1_3   b1_4
0   1   4   6  10  15  40   90  100   2.5  3.666667  5.25  27.5  48.333333  61.25
1   2   5   3  11  25  50   90  120   3.5  3.333333  5.25  37.5  55.000000  71.25
2   3   7   9  14  35  55  100  120   5.0  6.333333  8.25  45.0  63.333333  77.50

作为“一行代码”：

df.join(df.groupby(lambda col: col[0], axis=1)
          .pipe(lambda gr: gr.cumsum(axis=1).div(gr.cumcount().add(1))
          .filter(regex="[^1]$")
          .rename(lambda col: re.sub(r"(\d+)$", r"1_\1", col), axis=1)))

- Mustafa Aydın

2

如果我理解正确，您可以使用wide_to_long进行重塑，然后执行groupby.rolling，接着unstack并展开多级索引：

df.join(pd
   .wide_to_long(df.reset_index(), stubnames=['a', 'b'], i='index', j='n')
   .groupby(level='index').expanding().mean()
   .loc[lambda d: d.index.get_level_values('n')>1]
   .droplevel(0).unstack('n')
   .pipe(lambda d: d.set_axis(d.columns.map(lambda x: f'{x[0]}1_{x[1]}'), axis=1))
)

输出：

   a1  a2  a3  a4  b1  b2   b3   b4  a1_2      a1_3  a1_4  b1_2       b1_3   b1_4
0   1   4   6  10  15  40   90  100   2.5  3.666667  5.25  27.5  48.333333  61.25
1   2   5   3  11  25  50   90  120   3.5  3.333333  5.25  37.5  55.000000  71.25
2   3   7   9  14  35  55  100  120   5.0  6.333333  8.25  45.0  63.333333  77.50

- mozway

太贵了吧？因为你要从长的转到宽的？只是一种直觉。 - sammywemmy

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Shubham Sharma · Accepted Answer

`expanding.mean`

for c in ('a', 'b'):
    m = df.filter(like=c).expanding(axis=1).mean().iloc[:, 1:]
    df[m.columns.str.replace(r'(\d+)$', r'1_\1', regex=True)] = m

结果

   a1  a2  a3  a4  b1  b2   b3   b4  a1_2      a1_3  a1_4  b1_2       b1_3   b1_4
0   1   4   6  10  15  40   90  100   2.5  3.666667  5.25  27.5  48.333333  61.25
1   2   5   3  11  25  50   90  120   3.5  3.333333  5.25  37.5  55.000000  71.25
2   3   7   9  14  35  55  100  120   5.0  6.333333  8.25  45.0  63.333333  77.50

另一个选项：

out = [value.expanding(axis=1).mean()
            .rename(columns = lambda col: f"{col[0]}1_{col[1]}") 
       for _, value in df.groupby(df.columns.str[0], axis = 1)]

pd.concat([df]+out, axis = 1)
   a1  a2  a3  a4  b1  b2   b3   b4  a1_1  a1_2      a1_3  a1_4  b1_1  b1_2       b1_3   b1_4
0   1   4   6  10  15  40   90  100   1.0   2.5  3.666667  5.25  15.0  27.5  48.333333  61.25
1   2   5   3  11  25  50   90  120   2.0   3.5  3.333333  5.25  25.0  37.5  55.000000  71.25
2   3   7   9  14  35  55  100  120   3.0   5.0  6.333333  8.25  35.0  45.0  63.333333  77.50