< p >"
u''
"前缀和unicode()
有什么区别?< /p >
# -*- coding: utf-8 -*-
print u'上午' # this works
print unicode('上午', errors='ignore') # this works but print out nothing
print unicode('上午') # error
第三个print
出现错误:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0
如果我有一个包含非ASCII字符的文本文件,比如“上午”,该如何正确读取并打印出来?
"\x97"
字节的编码是什么?无论你的答案是什么,都要将其用作unicode
(或str.decode
)的参数,而不是"utf-8"
。正如 Joel Spolsky 在 Martijn Pieters 链接的帖子 中所写:“没有知道使用哪种编码的字符串是没有意义的。” - Blckknght