如何将pandas数据框的数据类型更改为具有定义格式的字符串?

29
我开始因这个问题而感到非常苦恼 - 所以我希望有人能帮助我。我有一个pandas DataFrame,它是使用openpyxl从Excel电子表格创建的。生成的DataFrame如下所示:

I'm starting to tear my hair out with this - so I hope someone can help. I have a pandas DataFrame that was created from an Excel spreadsheet using openpyxl. The resulting DataFrame looks like:

print image_name_data
     id           image_name
0  1001  1001_mar2014_report
1  1002  1002_mar2014_report
2  1003  1003_mar2014_report

[3 rows x 2 columns]

...具有以下数据类型:

print image_name_data.dtypes
id            float64
image_name     object
dtype: object
问题是id列中的数字实际上是标识号码,我需要将它们视为字符串进行处理。我尝试使用以下方法将id列转换为字符串:

问题在于 id 列中的数字实际上是标识号码,我需要将它们视为字符串进行处理。我已经尝试将 ID 列转换为字符串,方法如下:

image_name_data['id'] = image_name_data['id'].astype('str')

这看起来有点丑陋,但它确实产生了一个类型为“object”而不是“float64”的变量:

print image_name_data.dyptes
id            object
image_name    object
dtype: object

然而,创建的字符串带有小数点,如下所示:

print image_name_data
       id           image_name
0  1001.0  1001_mar2014_report
1  1002.0  1002_mar2014_report
2  1003.0  1003_mar2014_report

[3 rows x 2 columns]

我该如何将 Pandas DataFrame 中的 float64 列转换为特定格式(例如 '%10.0f')的字符串?

3个回答

63

我无法重现您的问题,但您是否尝试先将其转换为整数?

image_name_data['id'] = image_name_data['id'].astype(int).astype('str')

那么,针对你的更一般的问题,你可以使用map就像这个答案中所示的那样)。在你的情况下:

image_name_data['id'] = image_name_data['id'].map('{:.0f}'.format)

太好了!两个建议看起来都完美地解决了问题。非常感谢!恐怕我没有足够的声望来评价这个答案——但是如果可以的话,我会的。 - user1718097
很高兴听到这个消息。虽然我也是新手,但我认为你可以将其标记为“最佳答案”或其他类似的选项。 - exp1orer
4
首先将数据转为整型会因为 NaN/null 值而失败(错误信息为“*** ValueError: Cannot convert NA to integer”)。我的数据要么是整数要么是缺失值,但 astype('str') 会把每个数字都加上“.0”... 不确定该如何避免这种情况。 - John Prior

8
如果您重新加载此内容,您可能能够使用dtypes参数。
pd.read_csv(..., dtype={'COL_NAME':'str'})

2

我把这个放在新回答中,因为评论中没有换行符/代码块。我假设你想把那些NaN变成空字符串?我找不到一个好的方法来做到这一点,只能用丑陋的方法:

s = pd.Series([1001.,1002.,None])
a = s.loc[s.isnull()].fillna('')
b = s.loc[s.notnull()].astype(int).astype(str)
result = pd.concat([a,b])

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接