如何在Java中规范化Unicode数字

4

是否有Java API将Unicode数字标准化为ASCII数字?

JDKICU4J中有一个标准化API,但似乎无法处理此类标准化(因为它可能不是Unicode标准所称的标准化)

我需要将所有形式的Unicode数字(在此帖子中列出)转换为[0-9]。一种可能的混乱解决方案是用0到9的任何数字替换全部。

3个回答

1

结合使用Character.forDigit(...)Character.digit(...)应该可以解决问题。

public static char normalizeDigit(char c) {
  int d = Character.digit(c, 10);
  return (d >= 0) ? Character.forDigit(d, 10): c;
}

迭代所有字符。


1

更新

这可以通过使用ICU4J转换API实现。 以下转换器从字符串中删除除a-z、A-Z、0-9和破折号(减号)之外的任何非ASCII字符。

Transliterator trans = Transliterator.getInstance("Any-Latin; NFD; [^a-zA-Z0-9-] Remove");
System.out.println(trans.transform("۱۲۳456"));

将打印出以下内容:
123456

另一种混乱的解决方案
static final Pattern DIGIT_0 = Pattern.compile("[٠۰߀०০੦૦୦௦౦೦൦๐໐0]");
static final Pattern DIGIT_1 = Pattern.compile("[١۱߁१১੧૧୧௧౧೧൧๑໑1]");
static final Pattern DIGIT_2 = Pattern.compile("[٢۲߂२২੨૨୨௨౨೨൨๒໒2]");
static final Pattern DIGIT_3 = Pattern.compile("[٣۳߃३৩੩૩୩௩౩೩൩๓໓3]");
static final Pattern DIGIT_4 = Pattern.compile("[٤۴߄४৪੪૪୪௪౪೪൪๔໔4]");
static final Pattern DIGIT_5 = Pattern.compile("[٥۵߅५৫੫૫୫௫౫೫൫๕໕5]");
static final Pattern DIGIT_6 = Pattern.compile("[٦۶߆६৬੬૬୬௬౬೬൬๖໖6]");
static final Pattern DIGIT_7 = Pattern.compile("[٧۷߇७৭੭૭୭௭౭೭൭๗໗7]");
static final Pattern DIGIT_8 = Pattern.compile("[٨۸߈८৮੮૮୮௮౮೮൮๘໘8]");
static final Pattern DIGIT_9 = Pattern.compile("[٩۹߉९৯੯૯୯௯౯೯൯๙໙9��]");

public static final Pattern[] DIGIT_PATTERN_LIST = { DIGIT_0, DIGIT_1, DIGIT_2, DIGIT_3, DIGIT_4, DIGIT_5, DIGIT_6, DIGIT_7, DIGIT_8,
        DIGIT_9 };

/**
 * Converts any Unicode digits into their ASCII equivalent. For example given 23۹٤۴ returns 23944
 * 
 * @param str
 * @return
 */
public static String normalizeUnicodeDigits(String str) {
    for (int i = 0; i < DIGIT_PATTERN_LIST.length; i++) {
        Pattern dp = DIGIT_PATTERN_LIST[i];
        str = dp.matcher(str).replaceAll(String.valueOf(i));
    }
    return str;
}

0
你正在尝试做的是音译

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接