获取 std::wstring 的子字符串

4

我如何获取一个包含非ASCII字符的std::wstring子串?

以下代码不会输出任何内容:
(文本是包含4个字符的阿拉伯单词,每个字符有两个字节,加上单词“Hello”)

#include <iostream>
#include <string>

using namespace std;

int main()
{
    wstring s = L"سلام hello";
    wcout << s.substr(0,3) << endl;
    wcout << s.substr(4,5) << endl;

    return 0;
}

第二个应该至少打印“hell”,在Coliru上确实可以打印。第一个可能无法在你所使用的控制台上打印。 - chris
你在哪个操作系统上运行这段代码? - Matteo Italia
据我所知,控制台对Unicode的支持有限(由于CRT的怪异性和可用于控制台的字体选择的限制),但你的情况可能会有所不同。 - Matteo Italia
1
特别是,首先正确设置整个事情以在控制台上打印Unicode(请参见https://dev59.com/WHE95IYBdhLWcg3wCJRf和http://blogs.msdn.com/b/michkap/archive/2008/03/18/8306597.aspx,如果默认字体没有您需要的字形,则参见http://blog.wolffmyren.com/2009/02/26/necessary-criteria-for-fonts-to-be-available-in-a-command-window/),*然后*进行子字符串和其他实验。 - Matteo Italia
你用过调试器吗?你的问题似乎是获取子字符串,而所有的评论都在说可能只是写入控制台的问题。通过将子字符串放入本地wstrings中,你应该能够确定哪个是问题所在,并相应地编辑问题。 - Kate Gregory
显示剩余3条评论
1个回答

2
这应该可以工作:在Coliru上实时查看
#include <iostream>
#include <string>
#include <boost/regex/pending/unicode_iterator.hpp>

using namespace std;

template <typename C>
std::string to_utf8(C const& in)
{
    std::string result;
    auto out = std::back_inserter(result);
    auto utf8out = boost::utf8_output_iterator<decltype(out)>(out);

    std::copy(begin(in), end(in), utf8out);
    return result;
}

int main()
{
    wstring s = L"سلام hello";

    auto first  = s.substr(0,3);
    auto second = s.substr(4,5);

    cout << to_utf8(first)  << endl;
    cout << to_utf8(second) << endl;
}

打印

سلا
 hell

坦白说,我认为你的字符串截取函数调用做出了奇怪的假设。不过,请允许我在一分钟内提出解决方案。

2
你对“一分钟”的定义是七年吗? - Code Doggo
3
@CodeDoggo 显然我偶尔会忘记一些事情 :) - sehe

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接