我该如何在Python中重新塑造这个数据框架(DataFrame)?

3

我有一个Python中的DataFrame df_sale,我想要对它进行数据重塑操作,对price列求和,并添加一个名为total的新列。下面是df_sale

b_no  a_id  price  c_id
120   24     50     2
120   56     100    2
120   90     25     2
120   45     20     2
231   89     55     3
231   45     20     3
231   10     250    3

重塑后的期望输出:

b_no  a_id_1  a_id_2  a_id_3  a_id_4  total  c_id
120   24      56      90      45      195    2
231   89      45      10      0       325    3

到目前为止,我尝试的是分别在120231上使用sum()函数对df_sale['price']进行计算。我不明白应该如何重塑数据、添加新列头并且在不影响计算效率的情况下获取总数。谢谢。
2个回答

2
这可能不是最干净的方法(完全不是),但它可以得到你想要的结果:
reshaped_df = (df.groupby('b_no')[['price', 'c_id']]
               .first()
               .join(df.groupby('b_no')['a_id']
                     .apply(list)
                     .apply(pd.Series)
                     .add_prefix('a_id_'))
               .drop('price',1)
               .join(df.groupby('b_no')['price'].sum().to_frame('total'))
               .fillna(0))


>>> reshaped_df
      c_id  a_id_0  a_id_1  a_id_2  a_id_3  total
b_no                                             
120      2    24.0    56.0    90.0    45.0    195
231      3    89.0    45.0    10.0     0.0    325

非常感谢!运行得很好。真是太神奇了,我还有很长的路要走才能像你一样编写代码。 - K. K.

1
你可以通过按b_noc_id进行分组,对total求和,并展开a_id来实现此操作:
import pandas as pd

d = {"b_no":  [120,120,120,120,231,231, 231],
     "a_id":  [24,56,90,45,89,45,10],
     "price": [50,100,25,20,55,20,250],
     "c_id":  [2,2,2,2,3,3,3]}

df = pd.DataFrame(data=d)

df2 = df.groupby(['b_no', 'c_id'])['a_id'].apply(list).apply(pd.Series).add_prefix('a_id_').fillna(0)

df2["total"] = df.groupby(['b_no', 'c_id'])['price'].sum()

print(df2)

           a_id_0  a_id_1  a_id_2  a_id_3  total
b_no c_id                                       
120  2       24.0    56.0    90.0    45.0    195
231  3       89.0    45.0    10.0     0.0    325

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接