分离Unicode连字字符

Question

23

在众多的unicode字符中，有些字符实际上代表着不止一个字符，例如将两个'f'字符合成为U+FB00连字体ﬀ。有没有一种简单的方法可以将这样的字符转换为多个单个字符？最好是Java标准API中可用的，但如果需要，我可以参考外部库。

- nonoitall

2

我冒昧地在你的问题中添加了关键词“连字”。 :) - deceze

谢谢 - 我不确定它们叫什么。 :-) - nonoitall

1

不返回基本单元的字形？ - Steve-o

3个回答

5

你所谈论的过程称为“归一化”，并在Unicode归一化形式技术说明中指定。

Java SE类库中有一个称为java.text.Normalizer的类实现了此过程。但是，您需要阅读上面链接的Unicode文件才能确定您需要使用哪种“归一化形式”以获得所需结果。这并不直观....

- Stephen C

1

你可以尝试使用java.text.Normalizer，但我不确定它是否适用于连字符。

- fstab

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Joachim Sauer · Accepted Answer

U+FB00 是一个兼容性字符。一般来说，Unicode 不支持单独的连字码位（认为是否应该使用连字是布局决策，不应影响数据存储）。少数这样的字符仍然存在，以便与旧的编码进行往返转换兼容，这些旧编码将连字表示为单独的实体。

幸运的是，连字所代表的字符信息已经存在于Unicode 数据文件中，并且大多数功能强大的字符串处理系统都内置了这些数据。

在 Java 中，您需要使用Normalizer 类和NFKC 格式：

String ff ="\uFB00";
String normalized = Normalizer.normalize(ff, Form.NFKC);
System.out.println(ff + " = " + normalized);

这将会打印：

ﬀ = ff