STL中的UTF8和宽字符转换问题

Question

STL中的UTF8和宽字符转换问题

86

是否可以以跨平台的方式将std :: string中的UTF8字符串转换为std :: wstring，反之亦然？在Windows应用程序中，我会使用MultiByteToWideChar和WideCharToMultiByte。但是，该代码已编译为多个操作系统，并且我仅限于标准C ++库。

- Vladimir Grigorov

3

顺带一提，标准 C++ 库并不叫做 STL；STL 只是标准 C++ 库的一个小部分。在这种情况下，我认为您正在询问标准 C++ 库中的功能，并相应地回答了您的问题。 - C. K. Young

UTF8-CPP: 在C++中以一种便携的方式使用UTF-8 - Assaf Lavie

6

您没有指定最终需要哪种编码方式。wstring并未指定任何特定的编码方式。当wchar_t为4字节宽时，在平台上转换为utf32是自然的选择；而当wchar_t为2字节时，则可以选择utf16。请问您希望使用哪种方式？ - jalf

1

@jalf，你的评论有误导性。std::wstring是std::basic_string<wchar_t>。wchar_t是一个不透明的数据类型，表示Unicode字符（在Windows上它只有16位长的事实仅意味着Windows不遵循标准）。抽象的Unicode字符没有“编码”，它们只是字符。 - kirelagin

8个回答

32

问题定义明确指出，8位字符编码是UTF-8。这使得它成为一个微不足道的问题；只需要进行一些位操作即可从一种UTF规范转换为另一种。

只需查看这些维基百科页面上的编码 UTF-8，UTF-16和UTF-32。

原则很简单 - 根据一个UTF规范遍历输入并组装32位Unicode代码点，然后根据另一个规范发出代码点。与任何其他字符编码所需的相应翻译不同，个别代码点不需要进行翻译；这就使得这个问题简单化了。

下面是到UTF-8转换和反之的快速实现。它假设输入已经被正确地编码了 - 旧说法“垃圾进，垃圾出”在这里适用。我认为验证编码最好作为一个单独的步骤来完成。

std::string wchar_to_UTF8(const wchar_t * in)
{
    std::string out;
    unsigned int codepoint = 0;
    for (in;  *in != 0;  ++in)
    {
        if (*in >= 0xd800 && *in <= 0xdbff)
            codepoint = ((*in - 0xd800) << 10) + 0x10000;
        else
        {
            if (*in >= 0xdc00 && *in <= 0xdfff)
                codepoint |= *in - 0xdc00;
            else
                codepoint = *in;

            if (codepoint <= 0x7f)
                out.append(1, static_cast<char>(codepoint));
            else if (codepoint <= 0x7ff)
            {
                out.append(1, static_cast<char>(0xc0 | ((codepoint >> 6) & 0x1f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            else if (codepoint <= 0xffff)
            {
                out.append(1, static_cast<char>(0xe0 | ((codepoint >> 12) & 0x0f)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            else
            {
                out.append(1, static_cast<char>(0xf0 | ((codepoint >> 18) & 0x07)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 12) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            codepoint = 0;
        }
    }
    return out;
}

以上代码适用于UTF-16和UTF-32输入，这是因为范围在d800到dfff之间的编码点是无效的；它们表示您正在解码UTF-16。如果您知道wchar_t是32位，则可以删除一些代码以优化函数。

std::wstring UTF8_to_wchar(const char * in)
{
    std::wstring out;
    unsigned int codepoint;
    while (*in != 0)
    {
        unsigned char ch = static_cast<unsigned char>(*in);
        if (ch <= 0x7f)
            codepoint = ch;
        else if (ch <= 0xbf)
            codepoint = (codepoint << 6) | (ch & 0x3f);
        else if (ch <= 0xdf)
            codepoint = ch & 0x1f;
        else if (ch <= 0xef)
            codepoint = ch & 0x0f;
        else
            codepoint = ch & 0x07;
        ++in;
        if (((*in & 0xc0) != 0x80) && (codepoint <= 0x10ffff))
        {
            if (sizeof(wchar_t) > 2)
                out.append(1, static_cast<wchar_t>(codepoint));
            else if (codepoint > 0xffff)
            {
                codepoint -= 0x10000;
                out.append(1, static_cast<wchar_t>(0xd800 + (codepoint >> 10)));
                out.append(1, static_cast<wchar_t>(0xdc00 + (codepoint & 0x03ff)));
            }
            else if (codepoint < 0xd800 || codepoint >= 0xe000)
                out.append(1, static_cast<wchar_t>(codepoint));
        }
    }
    return out;
}

如果您知道 wchar_t 是32位的，那么您可以从此函数中删除一些代码，但在这种情况下，这不应该有任何影响。表达式 sizeof(wchar_t) > 2 在编译时已知，因此任何好的编译器都会识别死代码并将其删除。

- Mark Ransom

1

UTF-8 在帖子标题中已经指定。您说得对，它在正文中确实缺失了。 - Mark Ransom

6

“widechar”并不一定表示UTF16。 - moogs

7

你所拥有的可能是一个不错的“概念验证”。成功转换有效编码是一回事，根据规范正确处理无效编码数据（例如UTF-16中的未配对代理项）则需要更加彻底设计和测试的代码。因此，你真正需要一些更为周密的设计和测试的代码。 - Craig McQueen

2

@Craig McQueen，你说得完全正确。我假设编码已经正确，只是机械转换而已。我相信有些情况下确实如此，这段代码就足够了——但限制应该明确说明。从原始问题中并不清楚是否应该关注这一点。 - Mark Ransom

1

@MarkRansom 我发现了你的答案并将其移植到了Nim语言中以满足我的需求。但是，对于UTF8_to_wchar，我发现在else if (codepoint > 0xffff)情况下，我需要使用(0xd7c0 + (codepoint >> 10))代替(0xd800 + (codepoint >> 10))。我认为这与Nim无关，而是想知道是否应该在您的答案中更正此错误。感谢您的工作，它非常有帮助！ - michaelsbradleyjr

显示剩余14条评论

24

UTF8-CPP: 在C++中以可移植的方式处理UTF-8

- Assaf

22

您可以从Boost序列化库中提取utf8_codecvt_facet。

它们的使用示例：

  typedef wchar_t ucs4_t;

  std::locale old_locale;
  std::locale utf8_locale(old_locale,new utf8_codecvt_facet<ucs4_t>);

  // Set a New global locale
  std::locale::global(utf8_locale);

  // Send the UCS-4 data out, converting to UTF-8
  {
    std::wofstream ofs("data.ucd");
    ofs.imbue(utf8_locale);
    std::copy(ucs4_data.begin(),ucs4_data.end(),
          std::ostream_iterator<ucs4_t,ucs4_t>(ofs));
  }

  // Read the UTF-8 data back in, converting to UCS-4 on the way in
  std::vector<ucs4_t> from_file;
  {
    std::wifstream ifs("data.ucd");
    ifs.imbue(utf8_locale);
    ucs4_t item = 0;
    while (ifs >> item) from_file.push_back(item);
  }

在Boost源代码中查找utf8_codecvt_facet.hpp和utf8_codecvt_facet.cpp文件。

- Constantin

我认为在流打开之前必须注入，否则注入将被忽略！ - Martin York

马丁，看起来在Visual Studio 2005中可以工作：0x41a成功转换为{0xd0，0x9a} UTF-8序列。 - Constantin

12

有几种方法可以做到这一点，但结果取决于string和wstring变量中的字符编码。

如果你知道string是ASCII编码，那么你可以简单地使用wstring的迭代器构造函数：

->

有多种方法可以实现此目的，但结果取决于string和wstring变量中的字符编码。如果您知道string是ASCII编码，则可以直接使用wstring的迭代器构造函数：

string s = "This is surely ASCII.";
wstring w(s.begin(), s.end());

如果你的 string 使用其他编码，那么结果可能非常糟糕。如果编码方式为 Unicode，可以考虑使用 ICU 项目，该项目提供了一组跨平台的库，可将各种Unicode编码转换为其他编码。

如果你的 string 包含代码页中的字符，那么愿神保佑你。

- Ben Straub

4

ICU 可以转换我曾遇到的所有字符编码，非常强大。 - Martin York

2

你可以使用codecvt语言环境部分。有一个特定的专业化定义，codecvt<wchar_t, char, mbstate_t>可能对你有用，但它的行为是系统特定的，并且不能保证以任何方式转换为UTF-8。

- Chris Jester-Young

2

根据区域设置进行编码/解码是一个不好的想法。正如你所说：“不能保证”。 - Tyler Liu

@TylerLong 显然，应该为所需的转换专门配置 std::locale 实例。 - Basilevs

@Basilevs 我仍然认为使用locale进行编码/解码是错误的。正确的方法是配置encoding而不是locale。据我所知，没有这样一种locale可以表示每一个Unicode字符。假设我想要编码一个包含所有Unicode字符的字符串，你建议我配置哪个locale？如果我错了，请纠正我。 - Tyler Liu

@TylerLong 在 C++ 中，Locale 是一个非常抽象的概念，它涵盖的东西远不止区域设置和编码。基本上，人们可以用它来做任何事情。虽然 codecvt_facet 确实处理的不仅仅是简单的重新编码，但绝对没有任何阻止它进行简单的 Unicode 转换。 - Basilevs

0

我创建了自己的库来进行utf-8到utf-16/utf-32的转换，但最终决定对现有项目进行分支。

https://github.com/tapika/cutf

（源自https://github.com/noct/cutf）

API可与C和C++一起使用。

函数原型看起来像这样：（完整列表请参见https://github.com/tapika/cutf/blob/master/cutf.h）

//
//  Converts utf-8 string to wide version.
//
//  returns target string length.
//
size_t utf8towchar(const char* s, size_t inSize, wchar_t* out, size_t bufSize);

//
//  Converts wide string to utf-8 string.
//
//  returns filled buffer length (not string length)
//
size_t wchartoutf8(const wchar_t* s, size_t inSize, char* out, size_t outsize);

#ifdef __cplusplus

std::wstring utf8towide(const char* s);
std::wstring utf8towide(const std::string& s);
std::string  widetoutf8(const wchar_t* ws);
std::string  widetoutf8(const std::wstring& ws);

#endif

用于UTF转换测试的示例用法/简单测试应用程序：

#include "cutf.h"

#define ok(statement)                                       \
    if( !(statement) )                                      \
    {                                                       \
        printf("Failed statement: %s\n", #statement);       \
        r = 1;                                              \
    }

int simpleStringTest()
{
    const wchar_t* chineseText = L"主体";
    auto s = widetoutf8(chineseText);
    size_t r = 0;

    printf("simple string test:  ");

    ok( s.length() == 6 );
    uint8_t utf8_array[] = { 0xE4, 0xB8, 0xBB, 0xE4, 0xBD, 0x93 };

    for(int i = 0; i < 6; i++)
        ok(((uint8_t)s[i]) == utf8_array[i]);

    auto ws = utf8towide(s);
    ok(ws.length() == 2);
    ok(ws == chineseText);

    if( r == 0 )
        printf("ok.\n");

    return (int)r;
}

如果这个库不能满足您的需求 - 请随意打开以下链接：

http://utf8everywhere.org/

然后向下滚动到页面底部，选择任何你喜欢的更重的库。

- TarmoPikaro

-2

我认为没有一种可移植的方法来做到这一点。C++不知道其多字节字符的编码方式。

正如Chris所建议的那样，你最好使用codecvt进行尝试。

- Martin Cote

问题中提到了“UTF8”，因此“多字节字符的编码”是已知的。 - Tyler Liu

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Vladimir Grigorov · Accepted Answer

5年前我曾提出过这个问题。当时这个帖子对我非常有帮助，我得出了结论，然后继续我的项目。有趣的是，最近我需要类似的东西，与过去的那个项目完全无关。当我在寻找可能的解决方案时，偶然发现了自己的问题 :)

我现在选择的解决方案基于C++11。Constantin 在他的回答中提到的 boost 库现在已经成为了C++标准的一部分。如果我们将 std::wstring 替换为新的字符串类型 std::u16string，则转换将如下所示：

UTF-8 转 UTF-16

std::string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::u16string dest = convert.from_bytes(source);

UTF-16转换为UTF-8

std::u16string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::string dest = convert.to_bytes(source);

从其他答案可以看出，解决这个问题有多种方法。这就是为什么我不选择一个被接受的答案。