每月每年分组的值计数 - Pandas

10

我正在尝试按月份和年份对日期计数进行分组,并以特定输出方式呈现。我可以按天数进行操作,但无法获得相同的按月份/年份的输出。

d = ({
    'Date' : ['1/1/18','1/1/18','2/1/18','3/1/18','1/2/18','1/3/18','2/1/19','3/1/19'],                 
    'Val' : ['A','B','C','D','A','B','C','D'],                                      
     })

df = pd.DataFrame(data = d)

df['Date'] = pd.to_datetime(df['Date'], format= '%d/%m/%y')

df['Count_d'] = df.Date.map(df.groupby('Date').size())

This is the output I want:

        Date Val  Count_d
0 2018-01-01   A        2
1 2018-01-01   B        2
2 2018-01-02   C        1
3 2018-01-03   D        1
4 2018-02-01   A        1
5 2018-03-01   B        1
6 2019-01-02   C        1
7 2019-01-03   D        1

当我试图按照每个月和年来进行类似操作时,我使用以下方法:

df1 = df.groupby([df['Date'].dt.year.rename('year'), df['Date'].dt.month.rename('month')]).agg({'count'})
print(df)
但输出结果为:
            Date   Val
           count count
year month            
2018 1         4     4
     2         1     1
     3         1     1
2019 1         2     2

预期输出:

        Date Val  Count_d Count_m Count_y
0 2018-01-01   A        2       4       6
1 2018-01-01   B        2       4       6
2 2018-01-02   C        1       4       6
3 2018-01-03   D        1       4       6
4 2018-02-01   A        1       1       6
5 2018-03-01   B        1       1       6
6 2019-01-02   C        1       2       2
7 2019-01-03   D        1       2       2
2个回答

阿里云服务器只需要99元/年,新老用户同享,点击查看详情
11

使用GroupBy.transform来处理与原始DataFrame大小相同的列:

df['Date'] = pd.to_datetime(df['Date'], format= '%d/%m/%y')
y = df['Date'].dt.year
m = df['Date'].dt.month

df['Count_d'] = df.groupby('Date')['Date'].transform('size')
df['Count_m'] = df.groupby([y, m])['Date'].transform('size')
df['Count_y'] = df.groupby(y)['Date'].transform('size')

print(df)
        Date Val  Count_d  Count_m  Count_y
0 2018-01-01   A        2        4        6
1 2018-01-01   B        2        4        6
2 2018-01-02   C        1        4        6
3 2018-01-03   D        1        4        6
4 2018-02-01   A        1        1        6
5 2018-03-01   B        1        1        6
6 2019-01-02   C        1        2        2
7 2019-01-03   D        1        2        2

刚刚发现他们正在移除使用字典的agg。有任何想法为什么? - anky
@anky_91 - 因为要保持与原始数据框相同的列大小。 - jezrael
你在哪里看到的 @anky_91? - Erfan
@Erfan 收到了一个未来的警告。我想我实现得有问题,Jez 把这个问题澄清了。 - anky

2
你可以用 pd.Grouper 来做到这一点。
df['Count_d'] = df.groupby([pd.Grouper(key='Date', freq='D')])['Date'].transform('size').astype(int)
df['Count_m'] = df.groupby([pd.Grouper(key='Date', freq='M')])['Date'].transform('size').astype(int)
df['Count_y'] = df.groupby([pd.Grouper(key='Date', freq='Y')])['Date'].transform('size').astype(int)

Which will give

        Date Val  Count_d  Count_m  Count_y
0 2018-01-01   A        2        4        6
1 2018-01-01   B        2        4        6
2 2018-01-02   C        1        4        6
3 2018-01-03   D        1        4        6
4 2018-02-01   A        1        1        6
5 2018-03-01   B        1        1        6
6 2019-01-02   C        1        2        2
7 2019-01-03   D        1        2        2
你可以使用这个方法按照不同的时间频率进行分组,参见DateOffsets文档

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,