为什么美国标准ASCII编码接受非美国标准ASCII字符？

Question

为什么美国标准ASCII编码接受非美国标准ASCII字符？

javaencodingutf-8asciinon-ascii-characters

3

Consider the following code:

public class ReadingTest {

    public void readAndPrint(String usingEncoding) throws Exception {
        ByteArrayInputStream bais = new ByteArrayInputStream(new byte[]{(byte) 0xC2, (byte) 0xB5}); // 'micro' sign UTF-8 representation
        InputStreamReader isr = new InputStreamReader(bais, usingEncoding);
        char[] cbuf = new char[2];
        isr.read(cbuf);
        System.out.println(cbuf[0]+" "+(int) cbuf[0]);
    }

    public static void main(String[] argv) throws Exception {
        ReadingTest w = new ReadingTest();
        w.readAndPrint("UTF-8");
        w.readAndPrint("US-ASCII");
    }
}

观察到的输出：

µ 181
? 65533

为什么使用 US-ASCII 的第二个 readAndPrint() 调用成功了呢？我本以为它会报错，因为输入不是这种编码中的合适字符。Java API 或 JLS 中指定了这种行为的地方在哪里？

- Grzegorz Oledzki

2个回答

3

我认为，这与构造函数String(byte bytes[], int offset, int length, Charset charset)的情况相同：

此方法始终使用此字符集的默认替换字符串替换格式不正确的输入和无法映射的字符序列。当需要对解码过程进行更多控制时，应使用java.nio.charset.CharsetDecoder类。

使用CharsetDecoder，您可以指定不同的CodingErrorAction。

- maaartinus

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Joachim Sauer · Accepted Answer

在输入流中发现无法解码的字节时，默认操作是用 Unicode 字符U+FFFD 替换字符来代替它们。

如果您想要更改这个操作，可以将一个CharacterDecoder传递给InputStreamReader，该对象配置了不同的CodingErrorAction。

CharsetDecoder decoder = Charset.forName(usingEncoding).newDecoder();
decoder.onMalformedInput(CodingErrorAction.REPORT);
InputStreamReader isr = new InputStreamReader(bais, decoder);