将pandas.Series从对象类型转换为浮点型,并将错误转换为NaN。

53

考虑以下情况:

In [2]: a = pd.Series([1,2,3,4,'.'])

In [3]: a
Out[3]: 
0    1
1    2
2    3
3    4
4    .
dtype: object

In [8]: a.astype('float64', raise_on_error = False)
Out[8]: 
0    1
1    2
2    3
3    4
4    .
dtype: object

我本来期望有一个选项可以在转换时将错误值(例如 .)转换为 NaN。有没有办法实现这一点?

3个回答

89

使用 pd.to_numeric 函数并设置 errors='coerce' 参数

# Setup
s = pd.Series(['1', '2', '3', '4', '.'])
s

0    1
1    2
2    3
3    4
4    .
dtype: object
pd.to_numeric(s, errors='coerce')

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64

如果需要填充NaN,请使用Series.fillna方法。

pd.to_numeric(s, errors='coerce').fillna(0, downcast='infer')

0    1
1    2
2    3
3    4
4    0
dtype: float64

注意,downcast='infer'将尝试在可能的情况下将浮点数降级为整数。如果你不想这样,可以删除该参数。

从v0.24+开始,pandas引入了可空整数类型,允许整数与NaN共存。如果你的列中有整数,你可以使用

pd.__version__
# '0.24.1'

pd.to_numeric(s, errors='coerce').astype('Int32')

0      1
1      2
2      3
3      4
4    NaN
dtype: Int32

扩展 DataFrames 的方法

如果您需要将此方法扩展到 DataFrames,您需要对每行进行 应用。您可以使用 DataFrame.apply 来实现。

# Setup.
np.random.seed(0)
df = pd.DataFrame({
    'A' : np.random.choice(10, 5), 
    'C' : np.random.choice(10, 5), 
    'B' : ['1', '###', '...', 50, '234'], 
    'D' : ['23', '1', '...', '268', '$$']}
)[list('ABCD')]
df

   A    B  C    D
0  5    1  9   23
1  0  ###  3    1
2  3  ...  5  ...
3  3   50  2  268
4  7  234  4   $$

df.dtypes

A     int64
B    object
C     int64
D    object
dtype: object
df2 = df.apply(pd.to_numeric, errors='coerce')
df2

   A      B  C      D
0  5    1.0  9   23.0
1  0    NaN  3    1.0
2  3    NaN  5    NaN
3  3   50.0  2  268.0
4  7  234.0  4    NaN

df2.dtypes

A      int64
B    float64
C      int64
D    float64
dtype: object
你也可以使用DataFrame.transform 来实现这个功能,但我的测试表明这可能稍微慢一些:
df.transform(pd.to_numeric, errors='coerce')

   A      B  C      D
0  5    1.0  9   23.0
1  0    NaN  3    1.0
2  3    NaN  5    NaN
3  3   50.0  2  268.0
4  7  234.0  4    NaN

如果您有许多列(数字;非数字),您可以通过仅在非数字列上应用pd.to_numeric来使其更具性能。

df.dtypes.eq(object)

A    False
B     True
C    False
D     True
dtype: bool

cols = df.columns[df.dtypes.eq(object)]
# Actually, `cols` can be any list of columns you need to convert.
cols
# Index(['B', 'D'], dtype='object')

df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')
# Alternatively,
# for c in cols:
#     df[c] = pd.to_numeric(df[c], errors='coerce')

df

   A      B  C      D
0  5    1.0  9   23.0
1  0    NaN  3    1.0
2  3    NaN  5    NaN
3  3   50.0  2  268.0
4  7  234.0  4    NaN

在列(即默认的axis=0)上应用pd.to_numeric,对于较长的数据框来说速度应该会稍微快一些。


3
太棒了:-),我们应该保持内容更新,因为在这个网站上留下过时的方法对未来的访问者不利:-),你做到了。 - BENY
啊哈,也许您可以添加s.str.isalnum() :-) 结合mask - BENY
@Wen 你是指s.str.isdigit()吗?它只适用于整数,不适用于浮点数。不过这个想法很好。 - cs95
1
据我所知,在这里 to_numeric 很重要。 - Bharath M Shetty
@cᴏʟᴅsᴘᴇᴇᴅ 作为参考,我们可以考虑这个问题 https://dev59.com/71YN5IYBdhLWcg3wuaJx。 - Bharath M Shetty
谢谢!然而,在我的Python 3.6.2中使用axis=0会出现错误:文件"C:\Python\lib\site-packages\pandas\core\series.py",第2294行,在apply函数中,mapped = lib.map_infer(values, f, convert = convert_dtype)。在“pandas\src\inference.pyx”中的第1207行,函数pandas.lib.map_infer产生了错误(pandas\lib.c:66124)。在文件"C:\Python\lib\site-packages\pandas\core\series.py",第2282行,出现TypeError: to_numeric() got an unexpected keyword argument 'axis'。 - Peter

20
In [30]: pd.Series([1,2,3,4,'.']).convert_objects(convert_numeric=True)
Out[30]: 
0     1
1     2
2     3
3     4
4   NaN
dtype: float64

我想我在一段时间前删除了“raise_on_error”函数。现在不起作用。 - Jeff
1
我在这里为增强问题打开了一个问题:https://github.com/pydata/pandas/issues/8332,请随意评论所提议的API。 - Jeff
在0.14.1版本中,它可以防止抛出异常。如果没有指定,astype语句将会引发错误。 - Korem
对不起,你是正确的。这就是为什么永远不要只读代码,一定要测试它 :) - Jeff
8
自0.17版本以来,.convert_objects()方法已被弃用,pd.to_numeric是新的替代方式。 - YaOzI

-2
做这个: pd.to_numeric(s, errors='coerce')

重复的回答没有额外的努力 - Kay

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接