我正在编写一个Python脚本,用于读取以UTF-8编码的XML文件,并对其进行一些操作,然后将其保存到Google的Datastore中(这是一个App Engine程序)。
我读取和解析文件的方式只是使用file.readline()和一些正则表达式。唯一的问题是,我正在处理的文件中有许多不同语言的字符,例如é、Å或俄语或希腊字符。
起初,我遇到了这样的错误:"UnicodeDecodeError:'ascii' codec无法解码位置0处的字节0xd0:序数不在范围内(128)。"然后我尝试将文件打开时的编码切换为"ISO-8859-15",这样就可以消除错误,但输出的字符显示不正确。
因此,我的问题是:如何在Python中处理以UTF-8编码的文件,而不会卡在文件中的所有特殊字符上?希望我的表述足够清晰,并感谢您提供的任何建议。
我读取和解析文件的方式只是使用file.readline()和一些正则表达式。唯一的问题是,我正在处理的文件中有许多不同语言的字符,例如é、Å或俄语或希腊字符。
起初,我遇到了这样的错误:"UnicodeDecodeError:'ascii' codec无法解码位置0处的字节0xd0:序数不在范围内(128)。"然后我尝试将文件打开时的编码切换为"ISO-8859-15",这样就可以消除错误,但输出的字符显示不正确。
因此,我的问题是:如何在Python中处理以UTF-8编码的文件,而不会卡在文件中的所有特殊字符上?希望我的表述足够清晰,并感谢您提供的任何建议。