std::string的移动构造函数是否真的会移动数据?

21
所以这里我有一个小的测试程序:
#include <string>
#include <iostream>
#include <memory>
#include <vector>

class Test
{
public:
  Test(const std::vector<int>& a_, const std::string& b_)
    : a(std::move(a_)),
      b(std::move(b_)),
      vBufAddr(reinterpret_cast<long long>(a.data())),
      sBufAddr(reinterpret_cast<long long>(b.data()))
  {}

  Test(Test&& mv)
    : a(std::move(mv.a)),
      b(std::move(mv.b)),
      vBufAddr(reinterpret_cast<long long>(a.data())),
      sBufAddr(reinterpret_cast<long long>(b.data()))
  {}

  bool operator==(const Test& cmp)
  {
    if (vBufAddr != cmp.vBufAddr) {
      std::cout << "Vector buffers differ: " << std::endl
        << "Ours: " << std::hex << vBufAddr << std::endl
        << "Theirs: " << cmp.vBufAddr << std::endl;
      return false;
    }
    
    if (sBufAddr != cmp.sBufAddr) {
      std::cout << "String buffers differ: " << std::endl
        << "Ours: " << std::hex << sBufAddr << std::endl
        << "Theirs: " << cmp.sBufAddr << std::endl;
      return false;
    }
  }

private:
  
  std::vector<int> a;
  std::string b;
  long long vBufAddr;
  long long sBufAddr;
};

int main()
{
  Test obj1 { {0x01, 0x02, 0x03, 0x04}, {0x01, 0x02, 0x03, 0x04}};
  Test obj2(std::move(obj1));

  obj1 == obj2;
  
                       
  return 0;
}

我用于测试的软件:
编译器:gcc 7.3.0 编译器标志:-std=c++11 操作系统:Linux Mint 19(tara),上游版本为Ubuntu 18.04 LTS(bionic)
我在这里看到的结果是,移动后,向量缓冲区仍然具有相同的地址,但字符串缓冲区没有。所以在我看来,它分配了一个新的缓冲区,而不仅仅是交换缓冲区指针。是什么导致了这种行为?
1个回答

41
你很可能看到了小字符串优化(SSO)的效果。为避免为每个微小的字符串进行不必要的分配,许多std::string实现包括一个小的固定大小数组来保存小字符串,而不需要使用new(当未使用动态分配时,该数组通常重新使用一些其他成员,因此它对提供它所需的额外内存很少或根本没有影响,无论是对于小的还是大的字符串),这些字符串不受std::move的影响(但它们很小,所以没关系)。更大的字符串将需要动态分配,并且将像您预期的那样传输指针。
仅供演示,此代码在g ++上:
void move_test(std::string&& s) {
    std::string s2 = std::move(s);
    std::cout << "; After move: " << std::hex << reinterpret_cast<uintptr_t>(s2.data()) << std::endl;
}

int main()
{
    std::string sbase;

    for (size_t len=0; len < 32; ++len) {
        std::string s1 = sbase;
        std::cout << "Length " << len << " - Before move: " << std::hex << reinterpret_cast<uintptr_t>(s1.data());
        move_test(std::move(s1));
        sbase += 'a';
    }
}

在线试用!

对于长度小于等于15的情况,会产生高(堆栈)地址,这些地址在移动构造时会改变(可能与指针大小有关),但是一旦长度达到16或更高,则会切换到低(堆)地址,移动构造后这些地址将保持不变(切换发生在16处,而不是17,因为它需要使用NUL终止字符串,自C++11及更高版本以来要求这样做)。

需要明确的是:这是一项实现细节。C++规范没有任何部分要求此行为,因此您不应该依赖它发生,并且当它发生时,您不应该依赖它发生特定的字符串长度。


4
“在包含少量字符串的情况下,通常不需要使用数组来进行SSO(小字符串优化),而是可以复用可用的存储空间(大小/指针/...)并添加一个标志来指示是否存在短字符串。” - Holt
2
@Holt:当然,但对于OP的目的来说效果是一样的。就此而言,如果您将截止长度/容量限制为严格限制(如果您只是将数据推入指针成员中,则会受到限制),则不需要专用标志。 - ShadowRanger
4
@Holt:也就是说,您使用一个带有 char[N] 的辨别式联合体来存储短字符串。因此,即使可能不在所有对象中存在该数组,该数组仍然存在于类型中。 - MSalters
2
@Ruslan:看起来是这样。我刚刚检查了GCC 8的头文件,它只定义了一个enum常量_S_local_capacity = 15 / sizeof(_CharT),然后定义了union { _CharT _M_local_buf[_S_local_capacity + 1]; size_type _M_allocated_capacity; };。因此,它实际上保留了一个固定的16字节联合体和作为size_type的容量,这意味着SSO数组比它共享的成员大8-12个字节。32位的string更小(sizeof报告24字节,而64位的string为32字节),但我猜32位的可以没有SSO时为12字节,64位的为24字节。 - ShadowRanger
1
@ShadowRanger... 在这一点上,有必要链接到Facebook上的std::string的奇怪细节(顺便说一句,研究得很好)。 - Arne Vogel
显示剩余3条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接