pandas groupby - 自定义函数

Question

pandas groupby - 自定义函数

3

我有下面这个数据框，我要使用groupby和sum()函数来处理它：

d = {'col1': ["A", "A", "A", "B", "B", "B", "C", "C","C"], 'col2': [1,2,3,4,5,6, np.nan, np.nan, np.nan]}

df = pd.DataFrame(data=d)

df.groupby("col1").sum()

这将导致以下结果:

col1 col2   
A   6.0
B   15.0
C   0.0

我希望C显示NaN而不是0，因为C的所有值都是NaN。我如何实现这一点？使用lambda函数的apply()函数吗？任何帮助将不胜感激。

- SM_Erd

1

逻辑是否为 NaN 是因为每个值都是 NaN 吗？对于一个包含 1 2 NaN 的组，你应该返回 NaN 还是 3？ - ALollz

3个回答

2

感谢 @piRSquared，@Alollz 和 @anky_91：

您可以不设置索引和重置索引即可使用：

"Original Answer" 翻译成 "最初的回答"

d = {'col1': ["A", "A", "A", "B", "B", "B", "C", "C","C"], 'col2': [1,2,3,4,5,6, np.nan, np.nan, np.nan]}

df = pd.DataFrame(data=d)

df.groupby("col1", as_index=False).sum(min_count=1)

输出：

  col1  col2
0    A   6.0
1    B  15.0
2    C   NaN

- Scott Boston

这个完美地运作了。非常聪明。我从来没有想过要检查sum()的参数。再次感谢大家的帮助。 - SM_Erd

1

调用sum函数时，需将参数skipna设置为False。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html

那个链接应该提供你需要的文档，我预计这会解决你的问题。

- bravosierra99

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- anky · Accepted Answer

请使用以下内容：

df.groupby('col1').apply(pd.DataFrame.sum,skipna=False).reset_index(drop=True)
#Or --> df.groupby('col1',as_index=False).apply(pd.DataFrame.sum,skipna=False)

没有使用apply()，感谢@piRSquared:

df.set_index('col1').sum(level=0, min_count=1).reset_index()

感谢 @Alollz：

如果您想返回包含 NaN 而不仅仅是 NaN 的组的总和

df.set_index('col1').sum(level=0,min_count=1).reset_index()

输出

  col1  col2
0  AAA   6.0
1  BBB  15.0
2  CCC   NaN