在pandas数据框中选择最小和最大值的行

Question

3

我的数据框：

df=pd.DataFrame({'A':['Adam','Adam','Adam','Adam'],'B':[24,90,67,12]})

我希望在这个数据框中选择名称相同且具有最小和最大值的行。我可以使用以下代码做到这一点:

df_max=df[df['B']==(df.groupby(['A'])['B'].transform(max))]
df_min=df[df['B']==(df.groupby(['A'])['B'].transform(min))]
df=pd.concat([df_max,df_min])

有没有一种方法可以用一行代码实现这个操作？我不想创建两个额外的数据框，并在最后将它们连接起来。

谢谢。

- sygneto

2个回答

1

使用 groupby、apply 和 loc 的解决方案，仅选择列 'B' 的最小值或最大值。

ddf = df.groupby('A').apply(lambda x : x.loc[(x['B'] == x['B'].min()) | (x['B'] == x['B'].max())]).reset_index(drop=True)

结果是：

这是结果。

      A   B
0  Adam  90
1  Adam  12

- Valentino

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jezrael · Accepted Answer

df1 = df.loc[df.groupby('A')['B'].agg(['idxmax','idxmin']).melt()['value']].drop_duplicates()

或者使用DataFrame.stack函数:

df2 = df.loc[df.groupby('A')['B'].agg(['idxmax','idxmin']).stack()].drop_duplicates()
print (df2)
      A   B
1  Adam  90
3  Adam  12