Unicode标准包含足够的代码点,需要4个字节才能存储所有这些代码点。这就是UTF-32编码的作用。然而,UTF-8编码通过使用称为“可变宽度编码”的东西,将它们压缩到更小的空间中。
事实上,它设法仅使用一个字节来表示美国 ASCII 的前127个字符,看起来与真正的ASCII完全相同,因此你可以将大量的ASCII文本解释为UTF-8格式,而无需对其做任何处理。非常巧妙的技巧,那么它是如何工作的呢?
我将在此提出并回答自己的问题,因为我刚刚读了一些内容来弄清楚它是如何工作的,我认为这可能会为其他人节省一些时间。如果我犯了一些错误,也许还有人可以纠正我。