如何计算累积平均收入？Python。

Question

如何计算累积平均收入？Python。

3

我想创建一个图表，显示每个“入职年份”（第一笔客户交易）的“累计平均收入”随时间变化的情况。但是在分组所需信息时我出现了错误。 玩具数据：

dataset = {'ClientId': [1,2,3,1,2,3,1,2,3,1,2,3,4,4,4,4,4,4,4],
           'Year Onboarded': [2018,2019,2020,2018,2019,2020,2018,2019,2020,2018,2019,2020,2016,2016,2016,2016,2016,2016,2016],
           'Year': [2019,2019,2020,2019,2019,2020,2018,2020,2020,2020,2019,2020,2016,2017,2018,2019,2020,2017,2018],
           'Revenue': [100,50,25,30,40,50,60,100,20,40,100,20,5,5,8,4,10,20,8]}
df = pd.DataFrame(data=dataset)

解释：客户有指定的“加入年份”，并且每个提到的“年份”都会进行交易。然后我计算自客户上线以来经过的年数，以使我的图形更具视觉吸引力。

df['Yearsdiff'] = df['Year']-df['Year Onboarded']

为了计算累积平均收入，我尝试了以下方法:

第一次尝试：

df = df.join(df.groupby(['Year']).expanding().agg({ 'Revenue': 'mean'})
               .reset_index(level=0, drop=True)
               .add_suffix('_roll'))

df.groupby(['Year Onboarded', 'Year']).last().drop(columns=['Revenue'])

输出开始变成累积的了，但是最后一行不再是累积的（不确定原因）。

第二次尝试：

df.groupby(['Year Onboarded','Year']).agg('mean') \
                                     .groupby(level=[1]) \
                                     .agg({'Revenue':np.cumsum})

但它不能正常工作，我试过其他方法，但结果不尽如人意。

为了可视化累计平均收入，我只需使用sns.lineplot。

我的目标是获得类似于下面的图表，但为此我首先需要正确地对数据进行分组。

预期输出图表

我们在图上看到的年份代表的是“Year Onboarded”而不是“Year”。

谁可以帮我计算一个能够绘制类似于上面的图表的累积平均收入？谢谢

另外，玩具数据集中提供的数据肯定不会给出类似于示例图的东西，但主要思想应该在其中。

- Killi Mandjaro

2个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Celius Stingher · Answer 1

这是我会做的方式，考虑到玩具数据不同，可能需要做一些更改，但总体而言：

import seaborn as sns
df1 = df.copy() 
df1['Yearsdiff'] = df1['Year']-df1['Year Onboarded']
df1['Revenue'] = df.groupby(['Year Onboarded'])['Revenue'].transform('mean') 
#Find the average revenue per Year Onboarded
df1['Revenue'] = df1.groupby(['Yearsdiff'])['Revenue'].transform('cumsum')
#Calculate the cumulative sum of Revenue (Which is now the average per Year Onboarded) per Yearsdiff (because this will be our X-axis in the plot)   
sns.lineplot(x=df1['Yearsdiff'],y=df1['Revenue'],hue=df1['Year'])
#Finally plot the data, using the column 'Year' as hue to account for the different years.

- zipa · Answer 2

您可以像这样创建滚动平均值：

df['rolling_mean'] = df.groupby(['Year Onboarded'])['Revenue'].apply(lambda x: x.rolling(10, 1).mean())

df

#     ClientId  Year Onboarded  Year  Revenue rolling_mean
# 0          1            2018  2019      100   100.000000
# 1          2            2019  2019       50    50.000000
# 2          3            2020  2020       25    25.000000
# 3          1            2018  2019       30    65.000000
# 4          2            2019  2019       40    45.000000
# 5          3            2020  2020       50    37.500000
# 6          1            2018  2018       60    63.333333
# 7          2            2019  2020      100    63.333333
# 8          3            2020  2020       20    31.666667
# 9          1            2018  2020       40    57.500000
# 10         2            2019  2019      100    72.500000
# 11         3            2020  2020       20    28.750000
# 12         4            2016  2016        5     5.000000
# 13         4            2016  2017        5     5.000000
# 14         4            2016  2018        8     6.000000
# 15         4            2016  2019        4     5.500000
# 16         4            2016  2020       10     6.400000
# 17         4            2016  2017       20     8.666667
# 18         4            2016  2018        8     8.571429