我有一些以CSV格式存储的数据,字符编码已经严重混乱,很可能在不同的软件(LibreOffice Calc、Microsoft Excel、Google Refine和自定义PHP/MySQL软件)之间来回转换,这些软件运行在Windows XP、Windows 7和世界各地的GNU/Linux机器上。在这个过程中,非ASCII字符似乎已经严重混乱,我不知道如何将它们解密或者检测出模式。如果手工操作,需要处理几千条记录...
这里举个例子,在CSV文件中有"Trois-Rivières",当我在Python中打开这部分CSV文件时,它显示:
Trois-Rivi\xc3\x83\xc2\x85\xc3\x82\xc2\xa0res
问题:我该通过什么过程来逆转?
\xc3\x83\xc2\x85\xc3\x82\xc2\xa0
获取返回值
è
即,我该如何解决这个问题?这个问题最初是如何出现的?我该如何逆向工程处理这个错误?
iconv
? - fge\xc3\x83\xc2\x85\xc3\x82\xc2\xa0
不能转换为单个的è
。 - Oded