C++ Unicode UTF-16编码

Question

C++ Unicode UTF-16编码

3

我有一个宽字符字符串L"hao123--我的上网主页"，需要编码为"hao123--\u6211\u7684\u4E0A\u7F51\u4E3B\u9875"。有人告诉我这种编码形式是用于编码Unicode UTF-16代码点的特殊"%uNNNN"格式。在这个网站上，它告诉我这是JavaScript转义字符。但我不知道如何在C++中进行编码。

是否有任何库可供使用？或者给我一些提示。

感谢我的朋友们！

- Dan

2个回答

0

只需使用 \x 代替 \u。

- dan04

我只是将它存储在一个字符串中，如果是x，当然可以更改为u。但是如何进行转换呢？谢谢。 - Dan

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Michael Aaron Safyan · Accepted Answer

将unicode嵌入字符串文字通常不是一个好主意并且不可移植；不能保证wchar_t是16位并且编码是UTF-16。虽然在Windows上的Microsoft Visual C ++ （特定的C ++实现）可能是这种情况，但OS X的GCC（另一种实现）中wchar_t是32位。如果您有某种本地化的字符串常量，最好使用特定编码的配置文件，并将其解释为已使用该编码进行编码。国际Unicode组件（ICU）库提供了对解释和处理unicode的很好支持。另一个用于在编码格式之间转换（但不解释）的好库是libiconv。

编辑：
我可能误解了你的问题……如果问题是您已经有一个UTF-16字符串，并且想要将其转换为“unicode-escape ASCII”（即由“\ u”后跟字符的数字值表示的ASCII字符串），则使用以下伪代码：

对于由UTF-16编码字符串表示的每个代码点：
    如果代码点在范围[0,0x7F]内：
       发出强制转换为char的代码点
    否则：
       发出由代表codepoint的十六进制数字后跟"\u"组成的内容

要获得代码点，有一个非常简单的规则……UTF-16字符串中的每个元素都是一个代码点，除非它是“代理对”的一部分，在这种情况下，它和其后面的元素构成一个单独的代码点。如果是这样，则Unicode标准定义了一种将“前导代理”和“尾随代理”组合成单个代码点的过程。请注意，UTF-8和UTF-16都是可变长度编码……如果未使用可变长度表示，则代码点需要32位。 Unicode转换格式（UTF）FAQ 解释了编码以及如何识别代理对以及如何将它们组合成代码点。