我已经使用os.listdir()
读取了大约1000个文件名,其中一些是用UTF8编码的,而另一些则是CP1252编码。
我想将它们全部解码为Unicode,以便在我的脚本中进行进一步处理。有没有一种方法可以获取源编码以正确地解码为Unicode?
例如:
for item in os.listdir(rootPath):
#Convert to Unicode
if isinstance(item, str):
item = item.decode('cp1252') # or item = item.decode('utf-8')
print item
ê
类型字符出现在本应该是ê
的地方。chardet
似乎首先尝试utf8,这就是结果。也许有一种方法可以告诉它使用哪个顺序,但lucemia的回答对我来说效果更好。 - artfulrobotTypeError: 期望字节或字节数组类型的对象,但得到了<class 'str'>
。 - HelloGoodbye