在一个整数中找到第n个SET位

31

不仅仅是寻找最低位的二进制位,我想要找到第 n 个最低位的二进制位。(我不是在谈论二进制位上的值)

例如,如果我有:
0000 1101 1000 0100 1100 1000 1010 0000

并且我想找到第 4 个被设置为 1 的二进制位。那么我希望它返回:
0000 0000 0000 0000 0100 0000 0000 0000

如果 popcnt(v) < n,这个函数返回 0 也是合理的,但是任何针对这种情况的行为都可以接受。

如果可能的话,我希望找到比循环更快的方法。


1
是的,在运行时你提供v和n。我也想不出任何不使用循环的方法来解决它。虽然将问题分解很困难,但我并不认为打败循环是不可能的。 - VoidStar
6
位操作技巧页面中提供了解决相反问题的解决方案。向下滚动至“选择具有给定计数(等级)的位位置(从最高有效位开始)”部分。您应该能够重新调整它以计算相反方向的位数。 - Sergey Kalinichenko
1
@dasblinkenlight 不错!不过,说实话,我并不真正理解算法是如何工作的。让我们看看能否弄明白它。 - fuz
1
一个 popcount 二分查找怎么样?使用掩码限制考虑的位集? - Nominal Animal
1
我的最初想法是将32位数字分成4个单字节块,使用256字节查找表快速获取每个字节的设置位数,然后使用这些中间步骤来定位所需位置。因此,我认为Bit Twiddling Hacks中的思路(或多或少)相同,但没有查找表和无分支。 - vgru
显示剩余6条评论
15个回答

40

如今,借助于BMI2指令集中的PDEP,这变得非常容易。以下是一些示例的64位版本:

#include <cassert>
#include <cstdint>
#include <x86intrin.h>

inline uint64_t nthset(uint64_t x, unsigned n) {
    return _pdep_u64(1ULL << n, x);
}

int main() {
    assert(nthset(0b0000'1101'1000'0100'1100'1000'1010'0000, 0) ==
                  0b0000'0000'0000'0000'0000'0000'0010'0000);
    assert(nthset(0b0000'1101'1000'0100'1100'1000'1010'0000, 1) ==
                  0b0000'0000'0000'0000'0000'0000'1000'0000);
    assert(nthset(0b0000'1101'1000'0100'1100'1000'1010'0000, 3) ==
                  0b0000'0000'0000'0000'0100'0000'0000'0000);
    assert(nthset(0b0000'1101'1000'0100'1100'1000'1010'0000, 9) ==
                  0b0000'1000'0000'0000'0000'0000'0000'0000);
    assert(nthset(0b0000'1101'1000'0100'1100'1000'1010'0000, 10) ==
                  0b0000'0000'0000'0000'0000'0000'0000'0000);
}

如果您只想要第n个设置位的(从0开始的)索引,请添加一个尾随的零计数。

inline unsigned nthset(uint64_t x, unsigned n) {
    return _tzcnt_u64(_pdep_u64(1ULL << n, x));
}

3
很酷,所以您使用原始位串作为存款索引,然后提供一个位串,其中仅设置第n个低阶位。 - Thomas Ahle
非常感谢这个。太棒了!你是怎么想到这个点子的? - alecco
非常酷!也许值得一提的是,当查阅 PDEP/PEXT 的视觉描述时(可在英特尔文档中看到),解决方案的正确性变得更加明显。 - damageboy
真是太棒了! - Quark
请注意,Zen 3之前的AMD Ryzen CPU支持PDEP和PEXT,但是在微码中模拟,速度非常慢(https://twitter.com/InstLatX64/status/1209095219087585281)。 Zen 3具有快速的PDEP和PEXT硬件实现,Intel CPU也是如此。 - Boann

11

事实证明,确实可以在没有循环的情况下实现此操作。最快的方法是预先计算(至少)这个问题的8位版本。当然,这些表会占用缓存空间,但在几乎所有现代PC场景中仍应该有净加速。在此代码中,n = 0返回最小设置位, n = 1是次小的,以此类推。

使用__popcnt的解决方案

有一种解决方案是使用__popcnt内置函数(需要__popcnt非常快,否则与简单循环解决方案相比任何性能提升都将无效。幸运的是,大多数SSE4+时代的处理器都支持它)。

// lookup table for sub-problem: 8-bit v
byte PRECOMP[256][8] = { .... } // PRECOMP[v][n] for v < 256 and n < 8

ulong nthSetBit(ulong v, ulong n) {
    ulong p = __popcnt(v & 0xFFFF);
    ulong shift = 0;
    if (p <= n) {
        v >>= 16;
        shift += 16;
        n -= p;
    }
    p = __popcnt(v & 0xFF);
    if (p <= n) {
        shift += 8;
        v >>= 8;
        n -= p;
    }

    if (n >= 8) return 0; // optional safety, in case n > # of set bits
    return PRECOMP[v & 0xFF][n] << shift;
}

这说明了分治算法是如何工作的。

通用解决方案

对于“通用”架构,也有一种没有__popcnt的解决方案。它可以通过以8位块进行处理来完成。您需要另一个查找表,告诉您一个字节的popcnt:

byte PRECOMP[256][8] = { .... } // PRECOMP[v][n] for v<256 and n < 8
byte POPCNT[256] = { ... } // POPCNT[v] is the number of set bits in v. (v < 256)

ulong nthSetBit(ulong v, ulong n) {
    ulong p = POPCNT[v & 0xFF];
    ulong shift = 0;
    if (p <= n) {
        n -= p;
        v >>= 8;
        shift += 8;
        p = POPCNT[v & 0xFF];
        if (p <= n) {
            n -= p;
            shift += 8;
            v >>= 8;
            p = POPCNT[v & 0xFF];
            if (p <= n) {
                n -= p;
                shift += 8;
                v >>= 8;
            }
        }
    }

    if (n >= 8) return 0; // optional safety, in case n > # of set bits
    return PRECOMP[v & 0xFF][n] << shift;
}

当然,这可以用循环来完成,但展开形式更快,而且循环的不寻常形式使编译器不太可能自动展开它。


干得好!你觉得在这个线程中发布一些不同方法的运行时统计数据怎么样? - Thomas Ahle
不使用任何条件,这是否可能实现? - markt1964
1
一个稍微更快的算法被实现在it.unimi.dsi.bits.Fast.select中。 - Thomas Mueller
有趣的是,我的基准测试表明,在下面的ffsn循环答案中,比起带有__popcnt的基于表格的nthSetBit,速度更快。 - Tom Ritter

10

v-1v 的最低有效位“1”处有一个零,而所有更高位都相同。这导致以下函数:

int ffsn(unsigned int v, int n) {
   for (int i=0; i<n-1; i++) {
      v &= v-1; // remove the least significant bit
   }
   return v & ~(v-1); // extract the least significant bit
}

“ffsn()”中的“f”代表什么意思?“while (0 < --n)”可能比你的代码更易读。 - greybeard

6

这里提供一个适用于此情况的 位操作技巧 版本,例如:

unsigned int nth_bit_set(uint32_t value, unsigned int n)
{
    const uint32_t  pop2  = (value & 0x55555555u) + ((value >> 1) & 0x55555555u);
    const uint32_t  pop4  = (pop2  & 0x33333333u) + ((pop2  >> 2) & 0x33333333u);
    const uint32_t  pop8  = (pop4  & 0x0f0f0f0fu) + ((pop4  >> 4) & 0x0f0f0f0fu);
    const uint32_t  pop16 = (pop8  & 0x00ff00ffu) + ((pop8  >> 8) & 0x00ff00ffu);
    const uint32_t  pop32 = (pop16 & 0x000000ffu) + ((pop16 >>16) & 0x000000ffu);
    unsigned int    rank  = 0;
    unsigned int    temp;

    if (n++ >= pop32)
        return 32;

    temp = pop16 & 0xffu;
    /* if (n > temp) { n -= temp; rank += 16; } */
    rank += ((temp - n) & 256) >> 4;
    n -= temp & ((temp - n) >> 8);

    temp = (pop8 >> rank) & 0xffu;
    /* if (n > temp) { n -= temp; rank += 8; } */
    rank += ((temp - n) & 256) >> 5;
    n -= temp & ((temp - n) >> 8);

    temp = (pop4 >> rank) & 0x0fu;
    /* if (n > temp) { n -= temp; rank += 4; } */
    rank += ((temp - n) & 256) >> 6;
    n -= temp & ((temp - n) >> 8);

    temp = (pop2 >> rank) & 0x03u;
    /* if (n > temp) { n -= temp; rank += 2; } */
    rank += ((temp - n) & 256) >> 7;
    n -= temp & ((temp - n) >> 8);

    temp = (value >> rank) & 0x01u;
    /* if (n > temp) rank += 1; */
    rank += ((temp - n) & 256) >> 8;

    return rank;
}

当在gcc-5.4.0上使用-Wall -O3 -march=native -mtune=native编译时,将其编译为单独的编译单元,可以在Intel Core i5-4200u上获得以下结果,这与IT技术有关。

00400a40 <nth_bit_set>:
  400a40: 89 f9                   mov    %edi,%ecx
  400a42: 89 f8                   mov    %edi,%eax
  400a44: 55                      push   %rbp
  400a45: 40 0f b6 f6             movzbl %sil,%esi
  400a49: d1 e9                   shr    %ecx
  400a4b: 25 55 55 55 55          and    $0x55555555,%eax
  400a50: 53                      push   %rbx
  400a51: 81 e1 55 55 55 55       and    $0x55555555,%ecx
  400a57: 01 c1                   add    %eax,%ecx
  400a59: 41 89 c8                mov    %ecx,%r8d
  400a5c: 89 c8                   mov    %ecx,%eax
  400a5e: 41 c1 e8 02             shr    $0x2,%r8d
  400a62: 25 33 33 33 33          and    $0x33333333,%eax
  400a67: 41 81 e0 33 33 33 33    and    $0x33333333,%r8d
  400a6e: 41 01 c0                add    %eax,%r8d
  400a71: 45 89 c1                mov    %r8d,%r9d
  400a74: 44 89 c0                mov    %r8d,%eax
  400a77: 41 c1 e9 04             shr    $0x4,%r9d
  400a7b: 25 0f 0f 0f 0f          and    $0xf0f0f0f,%eax
  400a80: 41 81 e1 0f 0f 0f 0f    and    $0xf0f0f0f,%r9d
  400a87: 41 01 c1                add    %eax,%r9d
  400a8a: 44 89 c8                mov    %r9d,%eax
  400a8d: 44 89 ca                mov    %r9d,%edx
  400a90: c1 e8 08                shr    $0x8,%eax
  400a93: 81 e2 ff 00 ff 00       and    $0xff00ff,%edx
  400a99: 25 ff 00 ff 00          and    $0xff00ff,%eax
  400a9e: 01 d0                   add    %edx,%eax
  400aa0: 0f b6 d8                movzbl %al,%ebx
  400aa3: c1 e8 10                shr    $0x10,%eax
  400aa6: 0f b6 d0                movzbl %al,%edx
  400aa9: b8 20 00 00 00          mov    $0x20,%eax
  400aae: 01 da                   add    %ebx,%edx
  400ab0: 39 f2                   cmp    %esi,%edx
  400ab2: 77 0c                   ja     400ac0 <nth_bit_set+0x80>
  400ab4: 5b                      pop    %rbx
  400ab5: 5d                      pop    %rbp
  400ab6: c3                      retq   

  400ac0: 83 c6 01                add    $0x1,%esi
  400ac3: 89 dd                   mov    %ebx,%ebp
  400ac5: 29 f5                   sub    %esi,%ebp
  400ac7: 41 89 ea                mov    %ebp,%r10d
  400aca: c1 ed 08                shr    $0x8,%ebp
  400acd: 41 81 e2 00 01 00 00    and    $0x100,%r10d
  400ad4: 21 eb                   and    %ebp,%ebx
  400ad6: 41 c1 ea 04             shr    $0x4,%r10d
  400ada: 29 de                   sub    %ebx,%esi
  400adc: c4 42 2b f7 c9          shrx   %r10d,%r9d,%r9d
  400ae1: 41 0f b6 d9             movzbl %r9b,%ebx
  400ae5: 89 dd                   mov    %ebx,%ebp
  400ae7: 29 f5                   sub    %esi,%ebp
  400ae9: 41 89 e9                mov    %ebp,%r9d
  400aec: 41 81 e1 00 01 00 00    and    $0x100,%r9d
  400af3: 41 c1 e9 05             shr    $0x5,%r9d
  400af7: 47 8d 14 11             lea    (%r9,%r10,1),%r10d
  400afb: 41 89 e9                mov    %ebp,%r9d
  400afe: 41 c1 e9 08             shr    $0x8,%r9d
  400b02: c4 42 2b f7 c0          shrx   %r10d,%r8d,%r8d
  400b07: 41 83 e0 0f             and    $0xf,%r8d
  400b0b: 44 21 cb                and    %r9d,%ebx
  400b0e: 45 89 c3                mov    %r8d,%r11d
  400b11: 29 de                   sub    %ebx,%esi
  400b13: 5b                      pop    %rbx
  400b14: 41 29 f3                sub    %esi,%r11d
  400b17: 5d                      pop    %rbp
  400b18: 44 89 da                mov    %r11d,%edx
  400b1b: 41 c1 eb 08             shr    $0x8,%r11d
  400b1f: 81 e2 00 01 00 00       and    $0x100,%edx
  400b25: 45 21 d8                and    %r11d,%r8d
  400b28: c1 ea 06                shr    $0x6,%edx
  400b2b: 44 29 c6                sub    %r8d,%esi
  400b2e: 46 8d 0c 12             lea    (%rdx,%r10,1),%r9d
  400b32: c4 e2 33 f7 c9          shrx   %r9d,%ecx,%ecx
  400b37: 83 e1 03                and    $0x3,%ecx
  400b3a: 41 89 c8                mov    %ecx,%r8d
  400b3d: 41 29 f0                sub    %esi,%r8d
  400b40: 44 89 c0                mov    %r8d,%eax
  400b43: 41 c1 e8 08             shr    $0x8,%r8d
  400b47: 25 00 01 00 00          and    $0x100,%eax
  400b4c: 44 21 c1                and    %r8d,%ecx
  400b4f: c1 e8 07                shr    $0x7,%eax
  400b52: 29 ce                   sub    %ecx,%esi
  400b54: 42 8d 14 08             lea    (%rax,%r9,1),%edx
  400b58: c4 e2 6b f7 c7          shrx   %edx,%edi,%eax
  400b5d: 83 e0 01                and    $0x1,%eax
  400b60: 29 f0                   sub    %esi,%eax
  400b62: 25 00 01 00 00          and    $0x100,%eax
  400b67: c1 e8 08                shr    $0x8,%eax
  400b6a: 01 d0                   add    %edx,%eax
  400b6c: c3                      retq

当作为单独的编译单元进行编译时,此机器上的计时变得困难,因为实际操作与调用一个什么也不做的函数(也编译在单独的编译单元中)一样快; 基本上,在函数调用相关的延迟期间完成计算。

它似乎比我的二分搜索建议稍微快一点,

unsigned int nth_bit_set(uint32_t value, unsigned int n)
{
    uint32_t      mask = 0x0000FFFFu;
    unsigned int  size = 16u;
    unsigned int  base = 0u;

    if (n++ >= __builtin_popcount(value))
        return 32;

    while (size > 0) {
        const unsigned int  count = __builtin_popcount(value & mask);
        if (n > count) {
            base += size;
            size >>= 1;
            mask |= mask << size;
        } else {
            size >>= 1;
            mask >>= size;
        }
    }

    return base;
}

循环执行确切地五次,编译为

00400ba0 <nth_bit_set>:
  400ba0: 83 c6 01                add    $0x1,%esi
  400ba3: 31 c0                   xor    %eax,%eax
  400ba5: b9 10 00 00 00          mov    $0x10,%ecx
  400baa: ba ff ff 00 00          mov    $0xffff,%edx
  400baf: 45 31 db                xor    %r11d,%r11d
  400bb2: 66 0f 1f 44 00 00       nopw   0x0(%rax,%rax,1)
  400bb8: 41 89 c9                mov    %ecx,%r9d
  400bbb: 41 89 f8                mov    %edi,%r8d
  400bbe: 41 d0 e9                shr    %r9b
  400bc1: 41 21 d0                and    %edx,%r8d
  400bc4: c4 62 31 f7 d2          shlx   %r9d,%edx,%r10d
  400bc9: f3 45 0f b8 c0          popcnt %r8d,%r8d
  400bce: 41 09 d2                or     %edx,%r10d
  400bd1: 44 38 c6                cmp    %r8b,%sil
  400bd4: 41 0f 46 cb             cmovbe %r11d,%ecx
  400bd8: c4 e2 33 f7 d2          shrx   %r9d,%edx,%edx
  400bdd: 41 0f 47 d2             cmova  %r10d,%edx
  400be1: 01 c8                   add    %ecx,%eax
  400be3: 44 89 c9                mov    %r9d,%ecx
  400be6: 45 84 c9                test   %r9b,%r9b
  400be9: 75 cd                   jne    400bb8 <nth_bit_set+0x18>
  400beb: c3                      retq   

就像在二分查找版本中,在95%的调用中不超过31个周期,而在位操作版本中,在95%的调用中不超过28个周期;两者均在50%的情况下运行在28个周期内。 (循环版本在95%的调用中需要多达56个周期,在中位数时需要多达37个周期。)

要确定哪一个更适合实际的现实任务中,必须对真实世界的任务进行适当的基准测试;至少对于当前的x86-64架构处理器,所做的工作很容易被隐藏在其他地方产生的延迟中(如函数调用)。


2

我的回答主要基于这个实现,它是一个64位字选择方法(提示:只看MARISA_USE_POPCNT、MARISA_X64、MARISA_USE_SSE3代码路径):

它分两步进行,首先选择包含第n个置位的字节,然后在字节内使用查找表:

  • 提取每个字节的低位和高位半字节(位掩码为0xF、0xF0,将高位半字节向下移)
  • 用半字节的popcount替换半字节值(_mm_shuffle_epi8与A000120
  • 求出低位和高位半字节的popcount之和(普通的SSE加法)以得到字节popcount
  • 计算所有字节popcount的前缀和(乘以0x01010101...)
  • 将位置n传播到所有字节(SSE广播或再次乘以0x01010101...)
  • 通过字节比较(_mm_cmpgt_epi8在小于n的每个字节中留下0xFF)来计算字节偏移量
  • 通过对结果进行popcount来计算字节偏移量

现在我们知道哪个字节包含该位,一个简单的字节查找表就足以得到结果,就像grek40的答案一样。

请注意,我并没有真正地将这个结果与其他实现进行基准测试,只是发现它相当高效(且无分支)。


有趣。不过SSE并不是真正的可移植,我的代码也应该能在ARM和可能的SPARC上运行。 - fuz
请注意,如果没有SSE #define存在,则代码本身是可移植的。 - Tobias Ribizel
是的,但那样就不快了。 - fuz
其实,我不太确定 - 它不使用分支,只有中等数量的基本操作和查找。像大多数情况一样,基准测试可能会给出更具有决定性的结果 ;) - Tobias Ribizel
pshufb / _mm_shuffle_epi8 是 SSSE3,而不是 SSE3。 - Peter Cordes

1

我看不到没有循环的方法,我想到的是:

int set = 0;
int pos = 0;
while(set < n) {
   if((bits & 0x01) == 1) set++;
   bits = bits >> 1;
   pos++;
}

之后,pos 将保存第 n 个最低位的位置。

我能想到的唯一其他方法可能是分治算法,这可能会产生 O(log(n)) 而不是 O(n)...但可能不会。

编辑:你说 任何 行为都可以,那么非终止也可以,对吧?:P


1
def bitN (l: Long, i: Int) : Long = {
  def bitI (l: Long, i: Int) : Long = 
    if (i == 0) 1L else 
    2 * { 
      if (l % 2 == 0) bitI (l / 2, i) else bitI (l /2, i-1) 
    }
  bitI (l, i) / 2
}

一个递归方法(在Scala中)。如果模2为1,则将位置i减1。返回时,乘以2。由于乘法是作为最后一次操作调用的,因此它不是尾递归的,但由于Longs事先已知大小,所以最大堆栈不会太大。
scala> n.toBinaryString.replaceAll ("(.{8})", "$1 ")
res117: java.lang.String = 10110011 11101110 01011110 01111110 00111101 11100101 11101011 011000

scala> bitN (n, 40) .toBinaryString.replaceAll ("(.{8})", "$1 ")
res118: java.lang.String = 10000000 00000000 00000000 00000000 00000000 00000000 00000000 000000

1

我知道问题要求比循环更快的解决方案,但是一个复杂的无循环答案可能比快速循环需要更长时间。

如果计算机具有32位int并且v是一个随机值,则它可能具有例如16个1,如果我们正在寻找16个1中的一个随机位置,我们可能通常正在寻找第8个。循环7或8次只有几个语句是不错的。

int findNthBit(unsigned int n, int v)
{
    int next;
    if (n > __builtin_popcount(v)) return 0;
    while (next = v&v-1, --n) 
    {
        v = next;
    }
    return v ^ next;
}

该循环通过将最低位的1移除n-1次来工作。第n个被移除的1就是我们要找的那个1。
如果有人想测试这个……
#include "stdio.h"
#include "assert.h"

// function here

int main() {
    assert(findNthBit(1, 0)==0);
    assert(findNthBit(1, 0xf0f)==1<<0);
    assert(findNthBit(2, 0xf0f)==1<<1);
    assert(findNthBit(3, 0xf0f)==1<<2);
    assert(findNthBit(4, 0xf0f)==1<<3);
    assert(findNthBit(5, 0xf0f)==1<<8);
    assert(findNthBit(6, 0xf0f)==1<<9);
    assert(findNthBit(7, 0xf0f)==1<<10);
    assert(findNthBit(8, 0xf0f)==1<<11);
    assert(findNthBit(9, 0xf0f)==0);
    printf("looks good\n");
}

如果担心循环执行的次数,例如当函数经常使用大值的n时,可以简单地添加以下形式的一两行额外代码来解决。
if (n > 8) return findNthBit(n-__builtin_popcount(v&0xff), v>>8)  << 8;

或者

 if (n > 12) return findNthBit(n - __builtin_popcount(v&0xfff),  v>>12) << 12;

这里的想法是第n个永远不会位于底部的n-1位中。更好的版本不仅清除底部8或12位,而且在n很大且我们不想循环那么多次时,还会清除所有底部的(n-1)位。
if (n > 7) return findNthBit(n - __builtin_popcount(v & ((1<<(n-1))-1)), v>>(n-1)) << (n-1);

我用findNthBit(20, 0xaf5faf5f)进行测试,清除了底部19位,因为答案不在那里,然后循环4次查找剩余位中的第5位,以去掉4个1。因此,改进后的版本如下:
int findNthBit(unsigned int n, int v)
{
    int next;
    if (n > __builtin_popcount(v)) return 0;
    if (n > 7) return findNthBit(n - __builtin_popcount(v & ((1<<(n-1))-1)), v>>(n-1)) << (n-1);
    while (next = v&v-1, --n) 
    {
        v = next;
    }
    return v ^ next;
}

值为7的限制循环是一种在限制循环和递归之间做出的妥协选择。通过删除递归并跟踪移位量,可以进一步改进函数。如果我有时间摆脱家庭教育我的女儿,我可能会尝试这个。

以下是最终版本,通过跟踪从正在搜索的位的底部移出的低位比特数来消除了递归。

最终版本

int findNthBit(unsigned int n, int v)
{
    int shifted = 0; // running total
    int nBits;       // value for this iteration

    // handle no solution
    if (n > __builtin_popcount(v)) return 0;

    while (n > 7) 
    {
        // for large n shift out lower n-1 bits from v. 
        nBits = n-1;
        n -= __builtin_popcount(v & ((1<<nBits)-1));
        v >>= nBits;
        shifted += nBits;
    }

    int next;
    // n is now small, clear out n-1 bits and return the next bit
    // v&(v-1): a well known software trick to remove the lowest set bit.
    while (next = v&(v-1), --n) 
    {
        v = next;
    }
    return (v ^ next) << shifted;
}

1

编辑

经过一番思考和使用__builtin_popcount函数后,我认为最好是确定相关字节,然后计算整个结果,而不是逐步添加/减去数字。这是更新后的版本:

int GetBitAtPosition(unsigned i, unsigned n)
{
    unsigned bitCount;

    bitCount = __builtin_popcount(i & 0x00ffffff);
    if (bitCount <= n)
    {
        return (24 + LUT_BitPosition[i >> 24][n - bitCount]);
    }

    bitCount = __builtin_popcount(i & 0x0000ffff);
    if (bitCount <= n)
    {
        return (16 + LUT_BitPosition[(i >> 16) & 0xff][n - bitCount]);
    }

    bitCount = __builtin_popcount(i & 0x000000ff);
    if (bitCount <= n)
    {
        return (8 + LUT_BitPosition[(i >> 8) & 0xff][n - bitCount]);
    }

    return LUT_BitPosition[i & 0xff][n];
}

我觉得创建一个基于LUT的解决方案是可行的,其中数字会被以字节块为单位检查,但是第n个位位置的LUT会变得非常大(256*8),而在评论中讨论的无LUT版本可能更好。
通常算法看起来像这样:
unsigned i = 0x000006B5;
unsigned n = 4;
unsigned result = 0;
unsigned bitCount;
while (i)
{
    bitCount = LUT_BitCount[i & 0xff];
    if (n < bitCount)
    {
        result += LUT_BitPosition[i & 0xff][n];
        break; // found
    }
    else
    {
        n -= bitCount;
        result += 8;
        i >>= 8;
    }
}

如果将循环展开为最多4次迭代,则可以获得在32位数字上获得最佳性能。

用于位计数的LUT(可以被__builtin_popcount替换):

unsigned LUT_BitCount[] = {
    0, 1, 1, 2, 1, 2, 2, 3, // 0-7

    1, 2, 2, 3, 2, 3, 3, 4, // 8-15

    1, 2, 2, 3, 2, 3, 3, 4, // 16-23
    2, 3, 3, 4, 3, 4, 4, 5, // 24-31

    1, 2, 2, 3, 2, 3, 3, 4, // 32-39
    2, 3, 3, 4, 3, 4, 4, 5, // 40-47
    2, 3, 3, 4, 3, 4, 4, 5, // 48-55
    3, 4, 4, 5, 4, 5, 5, 6, // 56-63

    1, 2, 2, 3, 2, 3, 3, 4, // 64-71
    2, 3, 3, 4, 3, 4, 4, 5, // 72-79
    2, 3, 3, 4, 3, 4, 4, 5, // 80-87
    3, 4, 4, 5, 4, 5, 5, 6, // 88-95
    2, 3, 3, 4, 3, 4, 4, 5, // 96-103
    3, 4, 4, 5, 4, 5, 5, 6, // 104-111
    3, 4, 4, 5, 4, 5, 5, 6, // 112-119
    4, 5, 5, 6, 5, 6, 6, 7, // 120-127

    1, 2, 2, 3, 2, 3, 3, 4, // 128
    2, 3, 3, 4, 3, 4, 4, 5, // 136
    2, 3, 3, 4, 3, 4, 4, 5, // 144
    3, 4, 4, 5, 4, 5, 5, 6, // 152
    2, 3, 3, 4, 3, 4, 4, 5, // 160
    3, 4, 4, 5, 4, 5, 5, 6, // 168
    3, 4, 4, 5, 4, 5, 5, 6, // 176
    4, 5, 5, 6, 5, 6, 6, 7, // 184
    2, 3, 3, 4, 3, 4, 4, 5, // 192
    3, 4, 4, 5, 4, 5, 5, 6, // 200
    3, 4, 4, 5, 4, 5, 5, 6, // 208
    4, 5, 5, 6, 5, 6, 6, 7, // 216
    3, 4, 4, 5, 4, 5, 5, 6, // 224
    4, 5, 5, 6, 5, 6, 6, 7, // 232
    4, 5, 5, 6, 5, 6, 6, 7, // 240
    5, 6, 6, 7, 6, 7, 7, 8, // 248-255
};

字节内位位置的查找表:
unsigned LUT_BitPosition[][8] = {
    // 0-7
    {UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},

    // 8-15
    {3,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},

    // 16-31
    {4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,4,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,4,UINT_MAX,UINT_MAX,UINT_MAX},

    // 32-63
    {5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,5,UINT_MAX,UINT_MAX,UINT_MAX},
    {4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,4,5,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,4,5,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,4,5,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,4,5,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,4,5,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,4,5,UINT_MAX,UINT_MAX},

    // 64-127
    {6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,4,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,4,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,4,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,4,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,4,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,4,6,UINT_MAX,UINT_MAX},
    {5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,5,6,UINT_MAX,UINT_MAX},
    {4,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,4,5,6,UINT_MAX,UINT_MAX},
    {3,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,4,5,6,UINT_MAX,UINT_MAX},
    {2,3,4,5,6,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,4,5,6,UINT_MAX,UINT_MAX},
    {1,2,3,4,5,6,UINT_MAX,UINT_MAX},
    {0,1,2,3,4,5,6,UINT_MAX},

    // 128-255
    {7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,4,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,4,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,4,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,4,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,4,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,4,7,UINT_MAX,UINT_MAX},
    {5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,5,7,UINT_MAX,UINT_MAX},
    {4,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,4,5,7,UINT_MAX,UINT_MAX},
    {3,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,4,5,7,UINT_MAX,UINT_MAX},
    {2,3,4,5,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,4,5,7,UINT_MAX,UINT_MAX},
    {1,2,3,4,5,7,UINT_MAX,UINT_MAX},
    {0,1,2,3,4,5,7,UINT_MAX},
    {6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {3,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,3,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,3,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,3,6,7,UINT_MAX,UINT_MAX},
    {4,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,4,6,7,UINT_MAX,UINT_MAX},
    {3,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,4,6,7,UINT_MAX,UINT_MAX},
    {2,3,4,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,4,6,7,UINT_MAX,UINT_MAX},
    {1,2,3,4,6,7,UINT_MAX,UINT_MAX},
    {0,1,2,3,4,6,7,UINT_MAX},
    {5,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {2,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,2,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,2,5,6,7,UINT_MAX,UINT_MAX},
    {3,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,3,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,3,5,6,7,UINT_MAX,UINT_MAX},
    {2,3,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,3,5,6,7,UINT_MAX,UINT_MAX},
    {1,2,3,5,6,7,UINT_MAX,UINT_MAX},
    {0,1,2,3,5,6,7,UINT_MAX},
    {4,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,4,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {1,4,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,1,4,5,6,7,UINT_MAX,UINT_MAX},
    {2,4,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,2,4,5,6,7,UINT_MAX,UINT_MAX},
    {1,2,4,5,6,7,UINT_MAX,UINT_MAX},
    {0,1,2,4,5,6,7,UINT_MAX},
    {3,4,5,6,7,UINT_MAX,UINT_MAX,UINT_MAX},
    {0,3,4,5,6,7,UINT_MAX,UINT_MAX},
    {1,3,4,5,6,7,UINT_MAX,UINT_MAX},
    {0,1,3,4,5,6,7,UINT_MAX},
    {2,3,4,5,6,7,UINT_MAX,UINT_MAX},
    {0,2,3,4,5,6,7,UINT_MAX},
    {1,2,3,4,5,6,7,UINT_MAX},
    {0,1,2,3,4,5,6,7},
};

1
我的方法是并行计算32位整数的每个8位子区间的人口统计量,然后找到包含第n位的子区间。低于找到的区间的子区间的人口统计量可以作为后续计算的初始值进行汇总。
此后逐个设置比特位,直到达到n。无需分支且使用不完整的人口统计算法实现,我的示例代码如下:
#include <stdio.h>
#include <stdint.h>

int main() {
    uint32_t n = 10, test = 3124375902u; /* 10111010001110100011000101011110 */
    uint32_t index, popcnt, quarter = 0, q_popcnt;

    /* count set bits of each quarter of 32-bit integer in parallel */
    q_popcnt = test - ((test >> 1) & 0x55555555);
    q_popcnt = (q_popcnt & 0x33333333) + ((q_popcnt >> 2) & 0x33333333);
    q_popcnt = (q_popcnt + (q_popcnt >> 4)) & 0x0F0F0F0F;

    popcnt = q_popcnt;

    /* find which quarters can be summarized and summarize them */
    quarter += (n + 1 >= (q_popcnt & 0xff));
    quarter += (n + 1 >= ((q_popcnt += q_popcnt >> 8) & 0xff));
    quarter += (n + 1 >= ((q_popcnt += q_popcnt >> 16) & 0xff));
    quarter += (n + 1 >= ((q_popcnt += q_popcnt >> 24) & 0xff));

    popcnt &= (UINT32_MAX >> (8 * quarter));
    popcnt = (popcnt * 0x01010101) >> 24;

    /* find the index of nth bit in quarter where it should be */
    index = 8 * quarter;
    index += ((popcnt += (test >> index) & 1) <= n);
    index += ((popcnt += (test >> index) & 1) <= n);
    index += ((popcnt += (test >> index) & 1) <= n);
    index += ((popcnt += (test >> index) & 1) <= n);
    index += ((popcnt += (test >> index) & 1) <= n);
    index += ((popcnt += (test >> index) & 1) <= n);
    index += ((popcnt += (test >> index) & 1) <= n);
    index += ((popcnt += (test >> index) & 1) <= n);

    printf("index = %u\n", index);
    return 0;
}

一个简单的方法是使用循环和条件语句,可以如下所示:
#include <stdio.h>
#include <stdint.h>

int main() {
    uint32_t n = 11, test = 3124375902u; /* 10111010001110100011000101011110 */
    uint32_t popcnt = 0, index = 0;
    while(popcnt += ((test >> index) & 1), popcnt <= n && ++index < 32);

    printf("index = %u\n", index);
    return 0;
}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接