理解strlen实现中的代码

13

我有两个问题关于在glibc中string.h库中的strlen函数实现。

  1. 该实现使用包含'空洞'的神奇数字。我无法理解它是如何工作的。能否有人帮忙解释一下这个代码片段:

size_t
strlen (const char *str)
{
   const char *char_ptr;
   const unsigned long int *longword_ptr;
   unsigned long int longword, himagic, lomagic;

   /* Handle the first few characters by reading one character at a time.
      Do this until CHAR_PTR is aligned on a longword boundary.  */
   for (char_ptr = str; ((unsigned long int) char_ptr
             & (sizeof (longword) - 1)) != 0;
        ++char_ptr)
     if (*char_ptr == '\0')
       return char_ptr - str;

   /* All these elucidatory comments refer to 4-byte longwords,
      but the theory applies equally well to 8-byte longwords.  */

   longword_ptr = (unsigned long int *) char_ptr;

   /* Bits 31, 24, 16, and 8 of this number are zero.  Call these bits
      the "holes."  Note that there is a hole just to the left of
      each byte, with an extra at the end:

      bits:  01111110 11111110 11111110 11111111
      bytes: AAAAAAAA BBBBBBBB CCCCCCCC DDDDDDDD

      The 1-bits make sure that carries propagate to the next 0-bit.
      The 0-bits provide holes for carries to fall into.  */

    himagic = 0x80808080L;
       lomagic = 0x01010101L;
       if (sizeof (longword) > 4)
       {
           /* 64-bit version of the magic.  */
           /* Do the shift in two steps to avoid a warning if long has 32 bits.  */
           himagic = ((himagic << 16) << 16) | himagic;
             lomagic = ((lomagic << 16) << 16) | lomagic;
         }
       if (sizeof (longword) > 8)
         abort ();

       /* Instead of the traditional loop which tests each character,
          we will test a longword at a time.  The tricky part is testing
          if *any of the four* bytes in the longword in question are zero.  */
       for (;;)
         {
           longword = *longword_ptr++;

           if (((longword - lomagic) & ~longword & himagic) != 0)
         {
           /* Which of the bytes was the zero?  If none of them were, it was
              a misfire; continue the search.  */

           const char *cp = (const char *) (longword_ptr - 1);

           if (cp[0] == 0)
             return cp - str;
           if (cp[1] == 0)
             return cp - str + 1;
           if (cp[2] == 0)
             return cp - str + 2;
           if (cp[3] == 0)
             return cp - str + 3;
           if (sizeof (longword) > 4)
             {
               if (cp[4] == 0)
             return cp - str + 4;
               if (cp[5] == 0)
             return cp - str + 5;
               if (cp[6] == 0)
             return cp - str + 6;
     if (cp[7] == 0)
      return cp - str + 7;
}}}

魔数是用来做什么的?

  • 为什么不直接增加指针直到 NULL 字符并返回计数?这种方法更快吗?为什么?


  • 2
    在大多数架构上,glibc将使用更快的函数。例如,在现代英特尔芯片上,它使用SIMD扩展来向量化检查。 - rici
    1个回答

    17

    这个用于一次性查看 4 个字节(32 位)甚至 8 个字节(64 位),检查它们中是否有一个为零(字符串结束),而不是单独检查每个字节。

    以下是一个检查空字节的示例:

    unsigned int v; // 32-bit word to check if any 8-bit byte in it is 0
    bool hasZeroByte = ~((((v & 0x7F7F7F7F) + 0x7F7F7F7F) | v) | 0x7F7F7F7F);
    

    更多内容请见Bit Twiddling Hacks

    这里使用的是32位示例:

    还有一种更快的方法——使用下面定义的haszero(v,1),它只需4个操作,不需要后续验证。 它简化为

    #define haszero(v) (((v) - 0x01010101UL) & ~(v) & 0x80808080UL)

    子表达式(v-0x01010101UL)在任何字节中都将评估为高位设置,每当对应的字节在v中为零或大于0x80。 子表达式~v&0x80808080UL计算在v的字节没有其高位设置的字节中设置了高位(因此字节小于0x80)。 最后,通过ANDing这两个子表达式,结果是高位集,在其中v中的字节为零,因为第一个子表达式中由大于0x80的值引起的高位设置被第二个子表达式掩码掉。

    逐字节查看至少需要与查看完整整数值(寄存器宽度)一样多的cpu周期。 在此算法中,检查完整整数以查看它们是否包含零。 如果没有,使用少量指令,并可以跳转到下一个完整整数。 如果存在零字节,则进一步检查以查看其确切位置。


    2
    此外,gcc的strlen实现还优化了利用支持8字节整数结构的架构。上面只能以4字节为单位寻找null。在strlen中的if (sizeof(longword) > 4)比较会扩展比较额外的4字节。无论哪种方式,都可以提高字符串长度超过32个字符时的strlen性能(超过逐字符检查的性能)。很好的回答。 - David C. Rankin

    网页内容由stack overflow 提供, 点击上面的
    可以查看英文原文,
    原文链接