Java UTF-16字符串始终使用4个字节而不是2个字节。

Question

Java UTF-16字符串始终使用4个字节而不是2个字节。

3

I have a simple test

@Test
public void utf16SizeTest() throws Exception {
    final String test = "п";
    // 'п' = U+043F according to unicode table
    // 43F to binary = 0100 0011 1111 (length is 11)
    // ADD '0' so length should be = 16
    // 0000 0100 0011 1111
    // 00000100(2) 00111111(2)
    //    4(10)  63(10)
    final byte[] bytes = test.getBytes("UTF-16");
    for (byte aByte : bytes) {
        System.out.println(aByte);
    }
}

如您所见，我首先将 'п' 转换为二进制，然后添加足够多的空位，直到 length != 16。

我期望输出结果为 4, 63。

但实际结果是：

我做错了什么？

- Almas Abdrazak

https://en.wikipedia.org/wiki/UTF-16#Byte_order_encoding_schemes - JB Nizet

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- xingbin · Accepted Answer

如果你尝试：

final String test = "ппп";

你会发现-2 -1只出现在开头：

-2是0xFE，-1是0xFF。它们一起形成了一个BOM (字节顺序标记)：

在UTF-16中，BOM（U+FEFF）可以作为文件或字符流的第一个字符放置，以指示文件或流中所有16位代码单元的字节顺序。如果尝试使用错误的字节顺序读取此流，则字节将被交换，从而生成Unicode定义的“非字符” U+FFFE，不应出现在文本中。

test.getBytes("UTF-16"); 在编码字节时默认使用Big Endian，因此在前面包含了一个BOM，以便后续处理器可以知道使用了Big Endian。

您可以通过使用UTF-16LE或UTF-16BE来明确指定字节顺序，从而避免输出中出现BOM：

final byte[] bytes = test.getBytes("UTF-16BE");

UTF-16 字符集使用十六位元组，因此对字节顺序敏感。在这些编码中，流的字节顺序可以由一个表示为 Unicode 字符 '\uFEFF' 的初始字节顺序标记指示。字节顺序标记的处理方式如下：

当解码时，UTF-16BE 和 UTF-16LE 字符集将初始字节顺序标记解释为零宽度的非换行空格；当编码时，则不会写入字节顺序标记。

当解码时，UTF-16 字符集将输入流开头的字节顺序标记解释为流的字节顺序，但如果没有字节顺序标记，则默认为大端字节序；当编码时，它使用大端字节顺序并写入大端字节顺序标记。