我已经阅读了许多关于unicode编码的文章,特别是与Python相关的。我认为我现在对它有了相当深刻的理解,但仍有一个小细节我不太确定。
解码如何知道字节边界?例如,假设我有一个Unicode字符串,其中包含两个Unicode字符,其字节表示分别为
解码如何知道解释字节
解码如何知道字节边界?例如,假设我有一个Unicode字符串,其中包含两个Unicode字符,其字节表示分别为
\xc6\xb4
和\xe2\x98\x82
。然后我将这个Unicode字符串写入文件,所以文件现在包含字节\xc6\xb4\xe2\x98\x82
。现在我决定打开并读取文件(Python默认将文件解码为utf-8),这就引出了我的主要问题。解码如何知道解释字节
\xc6\xb4
而不是\xc6\xb4\xe2
?