Unicode规范化在strcoll中的应用

Question

Unicode规范化在strcoll中的应用

c++linuxunicodecygwinunicode-normalization

3

有些时候，Unicode字符串在规范意义下等效，但在排序时可能并不相等。

#include <iostream>
#include <cstring>
#include <clocale>
int main()
{
    std::setlocale(LC_COLLATE, "en_US.UTF-8");
    if (std::strcoll("\xc3\xa9", "e\xcc\x81"))
      std::cout << "FAIL: No Unicode normalization here" << std::endl;
    else
      std::cout << "WIN: Unicode normalization is performed" << std::endl;
}

这个程序在我使用Cygwin模拟的Windows机器上运行成功，但在我手头能获取到的每台Linux系统上都失败了。

这是预期行为吗？有哪些Linux系统可以成功运行呢？Mac OS X和FreeBSD呢？

我知道我可以使用第三方库对其进行规范化和规范等价处理。我关心的是UTF-8语言环境下的标准排序规则。

这个问题的灵感来源于这个问题。

- n. m.

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ninjalj · Accepted Answer

据我所知，在C、C++和POSIX标准中都没有提到Unicode规范化。

因此，实现可能会将规范化留给程序员显式完成。

更具体地说，在glibc欧洲区域设置中，似乎使用ISO 14651作为排序算法。Unicode排序FAQ 暗示ISO 14651不执行规范化: 规范等价的统一处理 是UCA和ISO 14651之间的差异之一。