字符集(Charsets)和字符编码(Character encoding)有什么区别? 当我说我在使用 utf-8 编码时, 我的字符集是什么? 它默认采用 Unicode 作为字符集吗?
字符集(Charsets)和字符编码(Character encoding)有什么区别? 当我说我在使用 utf-8 编码时, 我的字符集是什么? 它默认采用 Unicode 作为字符集吗?
字符集:定义每个字符对应的数字编码点(ASCII、JIS、Unicode)。
编码:定义数字编码点如何在物理上表示(UTF、UCS、ShiftJIS)。
旧协议(如MIME)在实际上指的是“字符编码方案”时使用“charset”。最初,不同的字符编码被认为是独立的字符集,而不是Unicode的子集。
字符集定义了数字和字符之间的映射关系。几乎所有字符集都将65表示为A,并且在数字映射到127以下时一般都达成共识。但是当涉及到127以上的数字时,它们可能会有不同的标准。
有很多种字符集:
当你说字符编码时,你谈论的是Unicode代码点(即字符)在内部存储的方式。
在UTF-8编码中,0-127的每个代码点都存储在一个字节中。只有128及以上的代码点才使用2、3甚至6个字节进行存储。