我正在阅读一个包含多个数值和分类数据的Excel文件。其中列名“name_string”包含一种外语字母。 当我尝试查看“name_string”列的内容时,我得到了我想要的结果,但是外语字母(在Excel电子表格中正确显示)却显示出了错误的编码。 以下是我的代码:
import pandas as pd
df = pd.read_excel('MC_simulation.xlsx', 'DataSet', encoding='utf-8')
name_string = df.name_string.unique()
name_string.sort()
name_string
生成以下内容:
array([u'4th of July', u'911', u'Abab', u'Abass', u'Abcar', u'Abced',
u'Ceded', u'Cedes', u'Cedfus', u'Ceding', u'Cedtim', u'Cedtol',
u'Cedxer', u'Chevrolet Corvette', u'Chuck Norris',
u'Cristina Fern\xe1ndez de Kirchner'], dtype=object)
在最后一行,正确编码的姓名应该是Cristina Fernández de Kirchner。有人可以帮我解决这个问题吗?
str
,则需要自己组合。如果列表中的对象是bytes
而不是(Python3)str
,则还需要解码字节。如果这个解释和链接没有完全回答您的问题,请使用所有细节(列表的示例片段和所需输出)打开一个新问题。 - unutbu