我在维基百科上查看中文字符的编码方式,但是我不太清楚他们使用的是什么编码方式。例如,“的”被编码为“%E7%9A%84”(点击这里)。这是三个字节,然而在这个页面描述的编码方式中,没有一种使用三个字节来表示中文字符。例如UTF-8使用两个字节。我想要将这三个字节匹配到实际字符,请问有哪种编码方式可以做到吗?
你提供的例子是一个IRI。IRI使用UTF8编码。UTF8实现了Unicode,在Unicode中,每个字符都有一个码点,对于所有汉字,它们的码点在0x4E00到0x9FFF之间(2个字节)。但是UTF8不仅仅通过存储它们的码点来编码字符(UTF32可以这样做)。相反,它使用更复杂的标准,使所有的汉字表意文字都是2或3个字节长。
E7 9A 84
。 - John Flatness