为什么Pandas的.fillna()函数不能填充数据框中的值?

4

我正在Python 3中运行Pandas,我注意到以下内容:

import pandas as pd
import numpy as np
from pandas import DataFrame
from numpy import nan

df = DataFrame([[1, nan], [nan, 4], [5, 6]])

print(df)

df2 = df
df2.fillna(0)

print(df2)

返回以下内容:
 0   1
0   1 NaN
1 NaN   4
2   5   6
    0   1
0   1 NaN
1 NaN   4
2   5   6

以下内容:

import pandas as pd
import numpy as np
from pandas import Series
from numpy import nan

sr1 = Series([1,2,3,nan,5,6,7])

sr1.fillna(0)

返回以下内容:
0    1
1    2
2    3
3    0
4    5
5    6
6    7
dtype: float64

当我使用.fillna()时,它会用0填充Series值,但不会用0填充DataFrame值。我错过了什么,如何在DataFrame中用0替换空值?


这里不是在讲什么,但可能会对某些人有所帮助。如果数据类型不是数字类型,你不能使用df.fillna和df.mean(用列均值替换缺失值)。听起来很明显,但单独使用df.mean()仍然有效。 - D A Wells
3个回答

4
正如您可以在文档中阅读到的那样,fillna(newValue)方法返回另一个DataFrame,类似于先前的那个,但是其中的nan 值被新值替换。
df = DataFrame([[1, nan], [nan, 2], [3, 2]])
df2 = df.fillna(0)

print(df2)
# Outputs
#   0 1
# 0 1 0
# 1 0 2
# 2 3 2

print(df)
# Outputs (The previous one isn't modified)
#   0   1
# 0 1   nan
# 1 nan 2
# 2 3   2

4

这与您调用fillna()函数的方式有关。

如果您使用inplace=True(见下面的代码),它们将被就地填充并覆盖您的原始数据帧。

In [1]: paste
import pandas as pd
import numpy as np
from pandas import DataFrame
from numpy import nan

df = DataFrame([[1, nan], [nan, 4], [5, 6]])
## -- End pasted text --

In [2]: 

In [2]: df
Out[2]: 
    0   1
0   1 NaN
1 NaN   4
2   5   6

In [3]: df.fillna(0)
Out[3]: 
   0  1
0  1  0
1  0  4
2  5  6

In [4]: df2 = df

In [5]: df2.fillna(0)
Out[5]: 
   0  1
0  1  0
1  0  4
2  5  6

In [6]: df2  # note how this is unchanged.
Out[6]: 
    0   1
0   1 NaN
1 NaN   4
2   5   6

In [7]: df.fillna(0, inplace=True)  # this will replace the values.

In [8]: df
Out[8]: 
   0  1
0  1  0
1  0  4
2  5  6

In [9]: 

1
有一次发生了一个很有趣的事情,即使使用了fillna函数,列仍然显示为nan。最后发现它们被读取为字符串"nan",所以我使用了replace函数将"nan"替换为"0"。希望这对某人有所帮助!

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接