字符串比较。如何将字符串与std::wstring进行比较?关于strcmp

7

我想比较两种格式,因为它们都是字符串,所以我觉得它们应该是相容的。我试过使用strcmp函数来比较一个string和一个std::wstring类型的字符串,但是像C++专家所知道的那样,这样做会导致编译错误。有没有可能比较这两种类型?是否存在一种简单的转换方法呢?


我有点困惑。你是想比较两个宽字符串还是想比较一个宽字符串和一个普通字符串? - jmucchiello
我从一个文件流中获得了一个char[256],它是从另一个程序编组而来的。然后,我需要将其(它表示文件名)与作为参数传递给函数的std::wstring文件名进行比较。但是,我无法在逻辑上比较这些内容。 - Mark
你对这些字符的编码有任何保证吗?它是系统区域设置编码吗?还是某些特定已知的编码? - Pavel Minaev
4个回答

11
你需要将你的 char* 字符串(在 ISO C 中称为 "多字节")转换为 wchar_t* 字符串(在 ISO C 中称为 "宽字符")。完成这个任务的标准函数称为 mbstowcs ("Multi-Byte String To Wide Character String",即将多字节字符串转换为宽字符字符串)。 注意:如 Steve 在评论中指出,这是一个 C99 函数,因此不符合 ISO C++ 标准,但可以作为扩展由 C++ 实现支持。MSVC 和 g++ 都支持它。
使用方式如下:
const char* input = ...;

std::size_t output_size = std::mbstowcs(NULL, input, 0); // get length
std::vector<wchar_t> output_buffer(output_size);

// output_size is guaranteed to be >0 because of \0 at end
std::mbstowcs(&output_buffer[0], input, output_size);

std::wstring output(&output_buffer[0]);

如果你有两个,就像平常一样进行比较即可。请注意,这将使用当前系统语言环境进行转换(即在Windows上,这将是当前的“ANSI”代码页)-通常这正是你想要的,但偶尔你需要处理特定的编码,在这种情况下上面的方法就不可行了,你需要使用类似于iconv的东西。

编辑

所有其他答案似乎都采用直接的代码点转换(即对于字符串中的每个char c的相当于(wchar_t)c)。这可能对于所有语言环境都不适用,但如果例如你的char全部为ASCII或Latin-1,而你的则为Unicode,则它将有效。如果你确定你真正想要的是这样,那么最快的方法实际上是完全避免转换,并使用std::lexicographical_compare

#include <algorithm>

const char* s = ...;
std::wstring ws = ...;

const char* s_end = s + strlen(s);

bool is_ws_less_than_s = std::lexicographical_compare(ws.begin, ws.end(),
                                                      s, s_end());
bool is_s_less_than_ws = std::lexicographical_compare(s, s_end(),
                                                      ws.begin(), ws.end());
bool is_s_equal_to_ws = !is_ws_less_than_s && !is_s_less_than_ws;

如果您需要特别测试相等性,请使用std::equal进行长度检查:

#include <algorithm>

const char* s = ...;
std::wstring ws = ...;

std::size_t s_len = strlen(s);
bool are_equal =
    ws.length() == s_len &&
    std::equal(ws.begin(), ws.end(), s);

这是 C++ 吗?看起来更像是 C99,我不确定哪些 C 库的版本被合并到了 C++ 标准中。无论如何已经点赞了 - 在实践中应该都可以工作。 - user180247
是的,“mbstowcs”是C99标准,不过在实践中,我熟悉的两个C++实现——MSVC和g++也支持该函数。 - Pavel Minaev
似乎使用std::codecvt<wchar_t, char, std::mbstate_t>facet及其in()方法是100%可移植的ISO C++方法,但它太混乱和冗长了... http://msdn.microsoft.com/en-us/library/xse90h58.aspx - 如果有人想尝试撰写详细答案,这里提供了相关文档。 - Pavel Minaev
2
@Pavel - 如果它不凌乱且啰嗦,谁会将其识别为真正的C++标准库呢? - user180247
警告:mbstowcs()在返回的计数中不包括最后的NUL字符!您应该将output_size增加1。 - Tey'

2

将您的wstring转换为字符串。

wstring a = L"foobar";
string  b(a.begin(),a.end());

现在,您可以使用b.c_str()或者其他任何你喜欢的方式将其与任何char*进行比较。
char c[] = "foobar";
cout<<strcmp(b.c_str(),c)<<endl;

抱歉之前的回答有误,我已经更正了。 - Jacob
1
最好采用另一种方式(即char* -> wstring),因为这样减少了数据丢失的可能性 - 您可以将原始指针用作字符串迭代器。但是,方法是相同的,并且使用构造函数比使用“copy”的其他答案更好。警告是相同的:这可能无法正确处理所有语言环境。 - Pavel Minaev

2
首先,你必须问自己为什么要使用 std::wstring,它是一种 Unicode 格式,而 char*(cstring)是 Ansi。最佳实践是使用 Unicode,因为它允许你的应用程序国际化,但在大多数情况下混合使用并没有太多意义。如果你想让你的 cstrings 成为 Unicode,请使用 wchar_t。如果你想让你的 STL 字符串成为 Ansi,请使用 std::string。
现在回到你的问题。
你想做的第一件事是将其中一个转换为与另一个数据类型匹配。
std::string 和 std::wstring 都有 c_str 函数。
以下是函数定义:
const char* std::string::c_str() const
const wchar_t* std::wstring::c_str() const

“我不记得如何将char *转换为wchar_t *或者反过来,但是在你完成这个之后,你可以使用strcmp函数。如果你Google一下,你会找到一个方法。”
“你可以使用下面的函数将std::wstring转换为std::string,然后c_str将给你char *,你可以使用strcmp。”
#include <string>
#include <algorithm>

// Prototype for conversion functions
std::wstring StringToWString(const std::string& s);
std::string WStringToString(const std::wstring& s);

std::wstring StringToWString(const std::string& s)
{
std::wstring temp(s.length(),L' ');
std::copy(s.begin(), s.end(), temp.begin());
return temp; 
}


std::string WStringToString(const std::wstring& s)
{
std::string temp(s.length(), ' ');
std::copy(s.begin(), s.end(), temp.begin());
return temp; 
}

只有当给定语言环境的多字节和宽字符编码"兼容"时,此方法才有效——例如,如果多字节实际上只是ASCII或Latin-1,并且宽字符是Unicode。如果多字节为CP1251等,则此方法将无效。 - Pavel Minaev
这就是为什么我喜欢stackoverflow。如果你去一些随机的谷歌结果,你可能会得到错误的答案。 - Ryu

2
快速而不太正式的方法是
if( std::wstring(your_char_ptr_string) == your_wstring)

我说"脏"是因为它会创建一个临时字符串并将 your_char 复制到其中。然而,只要你不在一个紧密的循环中,它就可以正常工作。

请注意,wstring 使用 16 位字符(即 Unicode - 65536 种可能的字符),而 char* 倾向于使用 8 位字符(Ascii、拉丁语仅限英语)。它们不是相同的,因此 wstring->char* 可能会失去准确性。

-Tom


这比我的想法更好 - 出于某种原因,我认为std::wstring没有正确的转换。我的方法创建了两个额外的对象 - 一个命名的(可能比简单的wstring更重),另一个是临时的wstring实例。 - user180247
4
std::wstring没有从const char*的构造函数。 - Pavel Minaev
你可以从char*构建一个wstring,底层类型是不同的。wstring使用wchar_t(在某些系统上可能不仅仅是16个字节,而是32个字节)。 - Martin York
你可以构建它,但是即使按照给定的代码编写也无法编译。 - Pavel Minaev
是的,需要使用std::wstring(pcYourString, pcYourString+strlen(pcYourString))才能编译。虽然不太美观,但只有当wchar_t为Unicode/UTF16/UTF32且char*为ASCII或ISO8859-1时才有效。它无法处理相当流行的ISO-8859-15(ISO-8859的€变体)。 - MSalters

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接