是否可以以跨平台的方式将std :: string中的UTF8字符串转换为std :: wstring,反之亦然?在Windows应用程序中,我会使用MultiByteToWideChar和WideCharToMultiByte。但是,该代码已编译为多个操作系统,并且我仅限于标准C ++库。
是否可以以跨平台的方式将std :: string中的UTF8字符串转换为std :: wstring,反之亦然?在Windows应用程序中,我会使用MultiByteToWideChar和WideCharToMultiByte。但是,该代码已编译为多个操作系统,并且我仅限于标准C ++库。
5年前我曾提出过这个问题。当时这个帖子对我非常有帮助,我得出了结论,然后继续我的项目。有趣的是,最近我需要类似的东西,与过去的那个项目完全无关。当我在寻找可能的解决方案时,偶然发现了自己的问题 :)
我现在选择的解决方案基于C++11。Constantin 在他的回答中提到的 boost 库现在已经成为了C++标准的一部分。如果我们将 std::wstring 替换为新的字符串类型 std::u16string,则转换将如下所示:
UTF-8 转 UTF-16
std::string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::u16string dest = convert.from_bytes(source);
UTF-16转换为UTF-8
std::u16string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::string dest = convert.to_bytes(source);
从其他答案可以看出,解决这个问题有多种方法。这就是为什么我不选择一个被接受的答案。
问题定义明确指出,8位字符编码是UTF-8。这使得它成为一个微不足道的问题;只需要进行一些位操作即可从一种UTF规范转换为另一种。
只需查看这些维基百科页面上的编码 UTF-8,UTF-16和UTF-32。
原则很简单 - 根据一个UTF规范遍历输入并组装32位Unicode代码点,然后根据另一个规范发出代码点。与任何其他字符编码所需的相应翻译不同,个别代码点不需要进行翻译;这就使得这个问题简单化了。
下面是到UTF-8转换和反之的快速实现。它假设输入已经被正确地编码了 - 旧说法“垃圾进,垃圾出”在这里适用。我认为验证编码最好作为一个单独的步骤来完成。
std::string wchar_to_UTF8(const wchar_t * in)
{
std::string out;
unsigned int codepoint = 0;
for (in; *in != 0; ++in)
{
if (*in >= 0xd800 && *in <= 0xdbff)
codepoint = ((*in - 0xd800) << 10) + 0x10000;
else
{
if (*in >= 0xdc00 && *in <= 0xdfff)
codepoint |= *in - 0xdc00;
else
codepoint = *in;
if (codepoint <= 0x7f)
out.append(1, static_cast<char>(codepoint));
else if (codepoint <= 0x7ff)
{
out.append(1, static_cast<char>(0xc0 | ((codepoint >> 6) & 0x1f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
else if (codepoint <= 0xffff)
{
out.append(1, static_cast<char>(0xe0 | ((codepoint >> 12) & 0x0f)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
else
{
out.append(1, static_cast<char>(0xf0 | ((codepoint >> 18) & 0x07)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 12) & 0x3f)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
codepoint = 0;
}
}
return out;
}
std::wstring UTF8_to_wchar(const char * in)
{
std::wstring out;
unsigned int codepoint;
while (*in != 0)
{
unsigned char ch = static_cast<unsigned char>(*in);
if (ch <= 0x7f)
codepoint = ch;
else if (ch <= 0xbf)
codepoint = (codepoint << 6) | (ch & 0x3f);
else if (ch <= 0xdf)
codepoint = ch & 0x1f;
else if (ch <= 0xef)
codepoint = ch & 0x0f;
else
codepoint = ch & 0x07;
++in;
if (((*in & 0xc0) != 0x80) && (codepoint <= 0x10ffff))
{
if (sizeof(wchar_t) > 2)
out.append(1, static_cast<wchar_t>(codepoint));
else if (codepoint > 0xffff)
{
codepoint -= 0x10000;
out.append(1, static_cast<wchar_t>(0xd800 + (codepoint >> 10)));
out.append(1, static_cast<wchar_t>(0xdc00 + (codepoint & 0x03ff)));
}
else if (codepoint < 0xd800 || codepoint >= 0xe000)
out.append(1, static_cast<wchar_t>(codepoint));
}
}
return out;
}
如果您知道 wchar_t
是32位的,那么您可以从此函数中删除一些代码,但在这种情况下,这不应该有任何影响。表达式 sizeof(wchar_t) > 2
在编译时已知,因此任何好的编译器都会识别死代码并将其删除。
UTF8_to_wchar
,我发现在else if (codepoint > 0xffff)
情况下,我需要使用(0xd7c0 + (codepoint >> 10))
代替(0xd800 + (codepoint >> 10))
。我认为这与Nim无关,而是想知道是否应该在您的答案中更正此错误。感谢您的工作,它非常有帮助! - michaelsbradleyjr您可以从Boost序列化库中提取utf8_codecvt_facet
。
它们的使用示例:
typedef wchar_t ucs4_t;
std::locale old_locale;
std::locale utf8_locale(old_locale,new utf8_codecvt_facet<ucs4_t>);
// Set a New global locale
std::locale::global(utf8_locale);
// Send the UCS-4 data out, converting to UTF-8
{
std::wofstream ofs("data.ucd");
ofs.imbue(utf8_locale);
std::copy(ucs4_data.begin(),ucs4_data.end(),
std::ostream_iterator<ucs4_t,ucs4_t>(ofs));
}
// Read the UTF-8 data back in, converting to UCS-4 on the way in
std::vector<ucs4_t> from_file;
{
std::wifstream ifs("data.ucd");
ifs.imbue(utf8_locale);
ucs4_t item = 0;
while (ifs >> item) from_file.push_back(item);
}
utf8_codecvt_facet.hpp
和utf8_codecvt_facet.cpp
文件。有几种方法可以做到这一点,但结果取决于string
和wstring
变量中的字符编码。
如果你知道string
是ASCII编码,那么你可以简单地使用wstring
的迭代器构造函数:
有多种方法可以实现此目的,但结果取决于string
和wstring
变量中的字符编码。如果您知道string
是ASCII编码,则可以直接使用wstring
的迭代器构造函数:
string s = "This is surely ASCII.";
wstring w(s.begin(), s.end());
如果你的 string
使用其他编码,那么结果可能非常糟糕。如果编码方式为 Unicode,可以考虑使用 ICU 项目,该项目提供了一组跨平台的库,可将各种Unicode编码转换为其他编码。
如果你的 string
包含代码页中的字符,那么愿神保佑你。
encoding
而不是locale
。据我所知,没有这样一种locale可以表示每一个Unicode字符。假设我想要编码一个包含所有Unicode字符的字符串,你建议我配置哪个locale?如果我错了,请纠正我。 - Tyler Liu我创建了自己的库来进行utf-8到utf-16/utf-32的转换,但最终决定对现有项目进行分支。
https://github.com/tapika/cutf
(源自https://github.com/noct/cutf)
API可与C和C++一起使用。
函数原型看起来像这样:(完整列表请参见https://github.com/tapika/cutf/blob/master/cutf.h)
//
// Converts utf-8 string to wide version.
//
// returns target string length.
//
size_t utf8towchar(const char* s, size_t inSize, wchar_t* out, size_t bufSize);
//
// Converts wide string to utf-8 string.
//
// returns filled buffer length (not string length)
//
size_t wchartoutf8(const wchar_t* s, size_t inSize, char* out, size_t outsize);
#ifdef __cplusplus
std::wstring utf8towide(const char* s);
std::wstring utf8towide(const std::string& s);
std::string widetoutf8(const wchar_t* ws);
std::string widetoutf8(const std::wstring& ws);
#endif
用于UTF转换测试的示例用法/简单测试应用程序:
#include "cutf.h"
#define ok(statement) \
if( !(statement) ) \
{ \
printf("Failed statement: %s\n", #statement); \
r = 1; \
}
int simpleStringTest()
{
const wchar_t* chineseText = L"主体";
auto s = widetoutf8(chineseText);
size_t r = 0;
printf("simple string test: ");
ok( s.length() == 6 );
uint8_t utf8_array[] = { 0xE4, 0xB8, 0xBB, 0xE4, 0xBD, 0x93 };
for(int i = 0; i < 6; i++)
ok(((uint8_t)s[i]) == utf8_array[i]);
auto ws = utf8towide(s);
ok(ws.length() == 2);
ok(ws == chineseText);
if( r == 0 )
printf("ok.\n");
return (int)r;
}
如果这个库不能满足您的需求 - 请随意打开以下链接:
然后向下滚动到页面底部,选择任何你喜欢的更重的库。
我认为没有一种可移植的方法来做到这一点。C++不知道其多字节字符的编码方式。
正如Chris所建议的那样,你最好使用codecvt进行尝试。
std::wstring
是std::basic_string<wchar_t>
。wchar_t
是一个不透明的数据类型,表示Unicode字符(在Windows上它只有16位长的事实仅意味着Windows不遵循标准)。抽象的Unicode字符没有“编码”,它们只是字符。 - kirelagin