我打算将文本标准化为C形式,然后再分成“显示单元”,基本上是一个字形加上所有后续的组合字符。目前,我只是想处理基于拉丁字母的脚本。
要确定一个代码点是否为组合字符,只需要检查它是否在以下范围内吗?
- Combining Diacritical Marks (0300–036F) - Combining Diacritical Marks Supplement (1DC0–1DFF) - Combining Diacritical Marks for Symbols (20D0–20FF) - Combining Half Marks (FE20–FE2F)
阿拉伯语、希伯来语以及各种印度脚本尚未处理...
要确定一个代码点是否为组合字符,只需要检查它是否在以下范围内吗?
- Combining Diacritical Marks (0300–036F) - Combining Diacritical Marks Supplement (1DC0–1DFF) - Combining Diacritical Marks for Symbols (20D0–20FF) - Combining Half Marks (FE20–FE2F)
阿拉伯语、希伯来语以及各种印度脚本尚未处理...