Pandas 数据框使用其他已知列的值进行fillna()填充空值

Question

Pandas 数据框使用其他已知列的值进行fillna()填充空值

3

考虑以下示例df：

   Other1  Other2     Name Value
0       0       1  Johnson     C
1       0       0  Johnson   NaN
2       1       1    Smith     R
3       1       1    Smith   NaN
4       0       1  Jackson     X
5       1       1  Jackson   NaN
6       1       1  Jackson   NaN

我希望能够用该行中与给定名称关联的df['Value']值来填充NaN值。我的期望结果如下，我知道可以通过以下方式实现：

df['Value'] = df['Value'].fillna(method='ffill')

   Other1  Other2     Name Value
0       0       1  Johnson     C
1       0       0  Johnson     C
2       1       1    Smith     R
3       1       1    Smith     R
4       0       1  Jackson     X
5       1       1  Jackson     X
6       1       1  Jackson     X

然而，如果名称不是按顺序排列的，则此解决方案将无法达到预期的结果。我也不能按df['Name']排序，因为顺序很重要。是否有一种有效的方法仅通过其关联的名称值填充给定的NaN值并将其分配给该值？

另外需要注意的是，给定名称始终只与单个值相关联。提前致谢。

- rahlf23

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- cs95 · Accepted Answer

你应该使用groupby和transform：

df['Value'] = df.groupby('Name')['Value'].transform('first')
df

   Other1  Other2     Name Value
0       0       1  Johnson     C
1       0       0  Johnson     C
2       1       1    Smith     R
3       1       1    Smith     R
4       0       1  Jackson     X
5       1       1  Jackson     X
6       1       1  Jackson     X

Peter的答案不正确，因为第一个有效值可能不总是在组中的第一个位置，这种情况下ffill将使用上一组的值来污染下一组。

ALollz的答案很好，但是dropna会产生一定程度的开销。