我试图使用pandas读取文本文件格式中的数据集。然而,一些字符没有正确编码,撇号部分变成了???
我该如何对文件进行正确编码?我已经尝试了以下方法:
encoding = "utf8"
,但我得到了UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 2044: unexpected end of data
。encoding = "latin1"
,但这给了我很多问号。encoding = "ISO-8859-1"或"ISO-8859-2"
,但这也像没有编码一样。
当我在sublime中打开我的数据时,我得到了字符’。
更新:但是,当我使用loc访问条目时,我得到了像\u0102\u02d8\xe2\x82\u0179\xc2\u015,\u0102\u02d8\xe2\x82\u0179\xe2\x84\u02d8这样的东西。