Pandas根据索引将列值分组。

Question

Pandas根据索引将列值分组。

3

目前，我有一个DataFrame，其中保存了人口的年龄和这些年龄的频率，如下所示:

年龄是DataFrame的索引。我希望进行一些Pandas魔法，以便获得如下分箱的DataFrame：

           freq
 (20, 30]   308
 (30, 40]   111
 (40, 50]    85
 (50, 60]    58
 (60, 70]    63
 (70, 80]   101

现在的索引由年龄间隔组成，而不是单个年龄，并按相应频率进行求和。我该如何完成这个任务？

- jerry maks

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alex Riley · Accepted Answer

您可以在使用cut对DataFrame的索引进行分组后，再使用groupby。例如：

>>> df = pd.DataFrame({'freq': [2, 3, 5, 7, 11, 13]}, 
                      index=[22, 29, 30, 31,25, 42])

>>> df
    freq
22     2
29     3
30     5
31     7
25    11
42    13

然后：

>>> df.groupby(pd.cut(df.index, np.arange(20, 60, 10))).sum()
          freq
(20, 30]    21
(30, 40]     7
(40, 50]    13

np.arange(20, 60, 10) 定义了将要使用的区间；您可以根据 'freq' 列中的最大/最小值进行调整。