如何将所有特殊字符规范化，但不包括umlauts？

Question

如何将所有特殊字符规范化，但不包括umlauts？

javaunicodenormalizationmatcherunicode-normalization

4

我希望规范化任何扩展的ASCII字符，但排除掉变音符。

如果我想包括变音符，我会选择：

Normalizer.normalize(value, Normalizer.Form.NFKD)
    .replaceAll("\\p{InCombiningDiacriticalMarks}+", "");

但是我如何排除德语umlauts？

结果我想要得到:

源代码: üöäâÇæôøñÁ

期望结果: üöäaCaeoonA 或类似结果

- membersound

2

你的意思是什么，规范化扩展字符？ - Bozho

â -> a 例如，这就是规范化程序所做的。 - membersound

2

一个想法：首先用不受规范化影响的其他字符替换umlauts（以及它们的分解形式！），然后进行规范化，最后再将它们替换回来。 - ankon

3

你想通过这种规范化达到什么目的？你期望的结果是什么？规范化后，U+00E2 不是实际上变成了 U+0061 U+005E 而不仅仅是 U+0061 吗（其他情况也是如此）？ - Jere Käpyaho

是的，这正是我想要的结果，但我不知道该怎么做。 - membersound

显示剩余4条评论

2个回答

1

从这里我看到两个解决方案，第一个相当麻烦，第二个实现起来相当无聊。

从你想要规范化的字符串中删除带有变音符号的字符，然后在规范化后将它们放回去。
不要使用预先构建的模式 p{InCombiningDiacriticalMarks}。而是构建自己的模式，排除变音符号。请查看：

- alain.janinm

2

第三种选择是在含有变音字符的输入字符串上进行分割，规范化它们之间的部分，然后再连接起来。 - Jongware

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Karol S · Accepted Answer

// Latin to ASCII - mostly
private static final String TAB_00C0 = "" +
        "AAAAÄAACEEEEIIII" +
        "DNOOOOÖ×OUUUÜYTß" +
        "aaaaäaaceeeeiiii" +
        "dnooooö÷ouuuüyty" +
        "AaAaAaCcCcCcCcDd" +
        "DdEeEeEeEeEeGgGg" +
        "GgGgHhHhIiIiIiIi" +
        "IiJjJjKkkLlLlLlL" +
        "lLlNnNnNnnNnOoOo" +
        "OoOoRrRrRrSsSsSs" +
        "SsTtTtTtUuUuUuUu" +
        "UuUuWwYyYZzZzZzs";

private static HashMap<Character, String> LIGATURES = new HashMap<>(){{
    put('æ', "ae"); 
    put('œ', "oe");
    put('þ', "th");
    put("ĳ", "ij");
    put('ð', "dh");
    put("Æ", "AE");
    put("Œ", "OE");
    put("Þ", "TH");
    put("Ð", "DH");
    put("Ĳ", "IJ");
    //TODO
}};

public static String removeAllButUmlauts(String value) {
    value = Normalizer.normalize(value, Normalizer.Form.NFC);
    StringBuilder sb = new StringBuilder();
    for (int i = 0; i < source.length(); i++) {
        char c = source.charAt(i);
        String  l = LIGATURES.get(c);
        if (l != null){
            sb.append(l);
        } else if (c < 0xc0) {
            sb.append(c); // ASCII and C1 control codes
        } else if (c >= 0xc0 && c <= 0x17f) {
            c = TAB_00C0.charAt(c - 0xc0); // common single latin letters
            sb.append(c);
        } else { 
            // anything else, including Vietnamese and rare diacritics
            l = Normalizer.normalize(Character.toString(c), Normalizer.Form.NFKD)
                    .replaceAll("[\\p{InCombiningDiacriticalMarks}]+", "");
            sb.append(l);
        }

    }
    return sb.toString();
}

然后

String value = "üöäâÇæôøñÁ";
String after = removeAllButUmlauts(value);
System.out.println(after)

给出：

üöäaCaeoonA