Pandas使用groupby填充fillna。

Question

Pandas使用groupby填充fillna。

28

我正在尝试使用具有相似列值的行来进行值填充/插补。

例如，我有这个数据框：

one | two | three
1      1     10
1      1     nan
1      1     nan
1      2     nan
1      2     20
1      2     nan
1      3     nan
1      3     nan

我想使用列 one 和 two 的键值，如果列three不是完全为NaN，则从具有相似键的行中填充现有值到列'3'的值。这是我的预期结果：

one | two | three
1      1     10
1      1     10
1      1     10
1      2     20
1      2     20
1      2     20
1      3     nan
1      3     nan

您可以看到键1和3没有包含任何值，因为现有值不存在。

我尝试使用groupby+fillna()：

df['three'] = df.groupby(['one','two'])['three'].fillna()

我尝试使用向前填充，但出现了错误。

我已经尝试了向前填充，但结果很奇怪。它填充的是第二列而不是第一列。我正在使用以下代码进行向前填充：

df['three'] = df.groupby(['one','two'], sort=False)['three'].ffill()

- Phurich.P

2个回答

2

您可以按包含缺失值的列进行排序，然后进行分组并向前填充：

df.sort_values('three', inplace=True)
df['three'] = df.groupby(['one','two'])['three'].ffill()

- Mykola Zotko

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jezrael · Accepted Answer

如果每个组中只有一个非NaN值，则使用ffill（向前填充）和bfill（向后填充）来填充每个组，因此需要对每个组应用apply和lambda：

df['three'] = df.groupby(['one','two'], sort=False)['three']
                .apply(lambda x: x.ffill().bfill())
print (df)
   one  two  three
0    1    1   10.0
1    1    1   10.0
2    1    1   10.0
3    1    2   20.0
4    1    2   20.0
5    1    2   20.0
6    1    3    NaN
7    1    3    NaN

但如果每个组有多个值并且需要用某个常数（例如组的平均值）替换 NaN：

print (df)
   one  two  three
0    1    1   10.0
1    1    1   40.0
2    1    1    NaN
3    1    2    NaN
4    1    2   20.0
5    1    2    NaN
6    1    3    NaN
7    1    3    NaN

df['three'] = df.groupby(['one','two'], sort=False)['three']
                .apply(lambda x: x.fillna(x.mean()))
print (df)
   one  two  three
0    1    1   10.0
1    1    1   40.0
2    1    1   25.0
3    1    2   20.0
4    1    2   20.0
5    1    2   20.0
6    1    3    NaN
7    1    3    NaN