Pandas按特定列分组

3

描述

如何使用Pandas groupby 分组某些列,而不是其他列?

当前进展

Original Answer翻译成"最初的回答"
table_D = pd.DataFrame({
    'Geo_ID': [1, 1, 1, 1, 2, 3, 4, 4, 5],
    'A_Code': [12, 12, 12, 65, 65, 65, 65, 98, 98],
    'A_Cost': [2, 9, 1, 10, 6, 7, 7, 6, 2],
}, columns=['Geo_ID', 'A_Code', 'A_Cost'])
table_D_dummies = pd.get_dummies(data = table_D, columns = ["A_Code"])
table_D_dummies_grouped = table_D_dummies.groupby(by = ["Geo_ID"]).sum()

问题

如下所示,这个表格正确地按Geo_ID汇总成本。不幸的是,它也在按A_Code汇总。

A_Code_12、A_Code_65和A_Code_98应该分别组合。此外,在实际数据集中,有超过100个A_Codes。

数据

table_D

最初的回答

请提供更多关于问题的上下文和相关代码,以便我们能够更好地帮助您解决问题。

+--------+--------+--------+
| Geo_ID | A_Code | A_Cost |
+--------+--------+--------+
|      1 |     12 |      2 |
|      1 |     12 |      9 |
|      1 |     12 |      1 |
|      1 |     65 |     10 |
|      2 |     65 |      6 |
|      3 |     65 |      7 |
|      4 |     65 |      7 |
|      4 |     98 |      6 |
|      5 |     98 |      2 |
+--------+--------+--------+

table_D_dummies

+---+--------+--------+-----------+-----------+-----------+
|   | Geo_ID | A_Cost | A_Code_12 | A_Code_65 | A_Code_98 |
+---+--------+--------+-----------+-----------+-----------+
| 0 |      1 |      2 |         1 |         0 |         0 |
| 1 |      1 |      9 |         1 |         0 |         0 |
| 2 |      1 |      1 |         1 |         0 |         0 |
| 3 |      1 |     10 |         0 |         1 |         0 |
| 4 |      2 |      6 |         0 |         1 |         0 |
| 5 |      3 |      7 |         0 |         1 |         0 |
| 6 |      4 |      7 |         0 |         1 |         0 |
| 7 |      4 |      6 |         0 |         0 |         1 |
| 8 |      5 |      2 |         0 |         0 |         1 |
+---+--------+--------+-----------+-----------+-----------+

table_D_dummies_grouped

+--------+--------+-----------+-----------+-----------+
| Geo_ID | A_Cost | A_Code_12 | A_Code_65 | A_Code_98 |
+--------+--------+-----------+-----------+-----------+
|      1 |     22 |         3 |         1 |         0 |
|      2 |      6 |         0 |         1 |         0 |
|      3 |      7 |         0 |         1 |         0 |
|      4 |     13 |         0 |         1 |         1 |
|      5 |      2 |         0 |         0 |         1 |
+--------+--------+-----------+-----------+-----------+

2
请将以下与编程相关的内容从英文翻译成中文。仅返回已翻译的文本:请将所有数据作为文本共享,不要使用图像。无法复制图像,因此无法复制问题。 - undefined
好建议。这个网站可以生成ASCII表格,用于在SO中显示表格。 - undefined
1
一般来说,当你将一个数据框作为文本发布时,人们会更清楚,这样他们就可以复制并检查符合你的解释(逻辑)的预期输出数据框。这个链接可能对你以后有所帮助。祝好!:) - undefined
1
你比我快了,@anky_91。总是喜欢一个好的格式化提示。 - undefined
没问题。我很高兴你承认了。 :) - undefined
1个回答

4

您没有使用虚拟表,而是对原始数据框进行了分组:

table_D_dummies = pd.get_dummies(data = table_D, columns = ["A_Code"])
table_D_dummies_grouped = table_D.groupby(by = ["Geo_ID"]).sum()

您希望在这里对table_D_dummies进行分组:

>>> table_D_dummies
   Geo_ID  A_Cost  A_Code_12  A_Code_65  A_Code_98
0       1       2          1          0          0
1       1       9          1          0          0
2       1       1          1          0          0
3       1      10          0          1          0
4       2       6          0          1          0
5       3       7          0          1          0
6       4       7          0          1          0
7       4       6          0          0          1
8       5       2          0          0          1
>>> table_D_dummies.groupby(by = ["Geo_ID"]).sum()
        A_Cost  A_Code_12  A_Code_65  A_Code_98
Geo_ID
1           22          3          1          0
2            6          0          1          0
3            7          0          1          0
4           13          0          1          1
5            2          0          0          1

如果您需要计算每个虚拟值的成本,请将它们添加到分组列中:

>>> table_D_dummies.groupby(by = [
...     "Geo_ID",
...     *(c for c in table_D_dummies.columns if c.startswith('A_Code_'))
... ]).sum()
                                      A_Cost
Geo_ID A_Code_12 A_Code_65 A_Code_98
1      0         1         0              10
       1         0         0              12
2      0         1         0               6
3      0         1         0               7
4      0         0         1               6
                 1         0               7
5      0         0         1               2

糟糕,我在简化代码以便分享时引入了这个错误。这个修正仍然没有得出解决方案。谢谢! - undefined
@PizzaAndCode:你并没有提供预期的输出,所以我们只能猜测预期的结果。我添加了自动的虚拟分组。 - undefined
你猜对了,那就是预期的结果。让我把问题整理一下,以便未来的读者更清楚明白。 - undefined

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接