我有一个数据框(`df`),其格式如下:
我想按月份-年份和名称进行分组,以获取列a的总和,列b的平均值和列c的标准差。但是,我希望总和,平均值和标准差是一个滚动/累积数字。
例如,对于此数据集,要找到所需的a输出,可以执行以下操作:
df.groupby(['month_year','name']).agg(sum).groupby(level = [1]).agg({'a':np.cumsum})
得到类似以下内容:
我应该怎么做才能找到b的累积平均值和 c 的标准差,以获得以下输出?
谢谢你。
month-year name a b c
2018-01 X 2 1 4
2018-01 Y 1 0 5
2018-01 X 1 6 3
2018-01 Y 4 10 7
2018-02 X 13 4 2
2018-02 Y 22 13 9
2018-02 X 3 7 4
2018-02 Y 2 15 0
我想按月份-年份和名称进行分组,以获取列a的总和,列b的平均值和列c的标准差。但是,我希望总和,平均值和标准差是一个滚动/累积数字。
例如,对于此数据集,要找到所需的a输出,可以执行以下操作:
df.groupby(['month_year','name']).agg(sum).groupby(level = [1]).agg({'a':np.cumsum})
得到类似以下内容:
month-year name a
2018-01 X 3
Y 5
2018-02 X 19
Y 29
我应该怎么做才能找到b的累积平均值和 c 的标准差,以获得以下输出?
month-year name a b c
2018-01 X 3 3.5 0.71
Y 5 5 1.41
2018-02 X 19 4.5 0.96
Y 29 9.5 3.86
谢谢你。