在C/C++中,反转字节顺序的最简单方法是什么?

155

虽然有多种方法可以反转字节中的位顺序,但我想知道对于开发人员来说最“简单”的方法是什么。而且我所说的反转是指:

1110 -> 0111
0010 -> 0100

这与this PHP问题类似,但并非重复。

这与this C问题类似,但并非重复。该问题询问开发人员实现最简单的方法。而“最佳算法”关注内存和CPU性能。


使用内联汇编。更好的方法是将函数放入单独的翻译单元中。为每个目标平台准备一个汇编语言模块。让构建过程选择这些模块。 - Thomas Matthews
@Andreas 最简单的实现 - nathan
相关链接:https://codegolf.stackexchange.com/questions/36213/reverse-bit-order-of-32-bit-integers - M.M
有趣的事实:ARM / AArch64 有一个指令 rbit 可以实现这个功能。但我不知道标准的使用方法,甚至 GCC 或 clang 内置函数也没有。如果未来有更好的方法,请参考 How can I elegantly take advantage of ARM instructions like REV and RBIT when writing C code? - Peter Cordes
一个查找表可能是最简单的选择。 - Jesper Juhl
42个回答

297

这应该可以工作:

unsigned char reverse(unsigned char b) {
   b = (b & 0xF0) >> 4 | (b & 0x0F) << 4;
   b = (b & 0xCC) >> 2 | (b & 0x33) << 2;
   b = (b & 0xAA) >> 1 | (b & 0x55) << 1;
   return b;
}

首先,左边的四个位与右边的四个位进行交换。然后交换所有相邻的一对位和所有相邻的单个位。这会导致顺序颠倒。


44
相对简短且快速,但不简单。 - Mark Ransom
4
这种方法也可以干净地推广到执行字节序转换。 - Boojum
3
不是最简单的方法,但我喜欢它 +1。 - nathan
18
好的,这很简单。这是一种分治算法。太棒了! - kiewic
2
@PiotrSiupa:是的,Clang 13及更高版本将这些算法识别为ARM和AArch64的rbit习语,采用SWAR分治法:https://godbolt.org/z/14MM3cExW。对于逐位循环也是如此,尽管32位整数需要使用`-O3`,但8位整数可以使用`-O2`(减少迭代次数以便展开和分析)。 - undefined
显示剩余8条评论

155

我认为查找表是最简单的方法之一。但是,您不需要完整的查找表。

//Index 1==0b0001 => 0b1000
//Index 7==0b0111 => 0b1110
//etc
static unsigned char lookup[16] = {
0x0, 0x8, 0x4, 0xc, 0x2, 0xa, 0x6, 0xe,
0x1, 0x9, 0x5, 0xd, 0x3, 0xb, 0x7, 0xf, };

uint8_t reverse(uint8_t n) {
   // Reverse the top and bottom nibble then swap them.
   return (lookup[n&0b1111] << 4) | lookup[n>>4];
}

// Detailed breakdown of the math
//  + lookup reverse of bottom nibble
//  |       + grab bottom nibble
//  |       |        + move bottom result into top nibble
//  |       |        |     + combine the bottom and top results 
//  |       |        |     | + lookup reverse of top nibble
//  |       |        |     | |       + grab top nibble
//  V       V        V     V V       V
// (lookup[n&0b1111] << 4) | lookup[n>>4]

这个代码相当简单,视觉上也易于验证。
最终,这甚至可能比一个完整的表格更快。位运算廉价,而且表格很容易适应缓存行。


12
这是减少表格解决方案复杂性的绝佳方法。+1 - e.James
8
什么会导致缓存未命中?我认为小表格版本可能比大表格更加高效利用缓存。在我的 Core2 上,一个缓存行宽度为 64 字节,完整的表格会跨越多行,而较小的表格可以轻松地放到一行中。 - deft_code
4
@kotlinski:相对于地址局部性,时间局部性对于缓存命中或替换策略更为重要。 - cfi
7
考虑表项的二进制编码索引。 索引b0000(0) - > b0000(0x0)无聊; b0001(1) - > b1000(0x8)b0010(2) - > b0100(0x4)b1010(10) - > b0101(0x5)。看到模式了吗? 它足够简单,你可以在脑海中计算它(如果你能读懂二进制,否则你需要纸来处理)。至于颠倒8位整数与颠倒4位部分并交换它们是相同的跃迁; 我声称这是经验和直觉(或魔法)。 - deft_code
3
查找表可以使用“const”关键字 ;) - psusi
显示剩余9条评论

107
如果您在谈论单个字节,查表法可能是最好的选择,除非出于某些原因您没有256个字节可用。

15
如果我们谈论的是不通过复制现成解决方案就可以简单实现的事情,那么创建查找表仍需要另一种解决方案。(当然,人们可能会手工完成此操作,但这容易出错且耗时...) - Arkku
7
如果不考虑回文,你可以将该数组压缩至不到256字节。 - wilhelmtell
8
@wilhelmtell - 你需要一张表格才能知道哪些是回文。 - Mark Ransom
6
@wilhelmtell: 嗯,为了编写脚本,仍然需要另一种解决方案,这正是我的观点——查找表易于使用,但创建起来并不简单。(除非复制现成的查找表,但那样做就可以复制任何解决方案。)例如,如果“最简单”的解决方案被认为是在考试或面试中可以在纸上书写的解决方案,我不会开始手工制作查找表,而制作程序执行此操作已经包含了不同的解决方案(只包括一个解决方案比同时包括它和表格更简单)。 - Arkku
4
我理解的是,你需要编写一个脚本,输出前256个字节及其反向映射表。是的,你需要重新编写反向映射函数,但这次你可以使用你最喜欢的脚本语言,并且它可以非常复杂 -- 完成后只需运行一次即可将其丢弃。脚本的输出应该是C代码,如:unsigned int rtable[] = {0x800, 0x4000, ...};。然后丢掉脚本并忘记你曾经拥有它。相比等效的C++代码,编写脚本更快,并且它只会在你的C++代码中运行一次,因此你可以获得O(1)的运行时间。 - wilhelmtell
显示剩余10条评论

53

既然没有人发布完整的表查找解决方案,这里是我的:

unsigned char reverse_byte(unsigned char x)
{
    static const unsigned char table[] = {
        0x00, 0x80, 0x40, 0xc0, 0x20, 0xa0, 0x60, 0xe0,
        0x10, 0x90, 0x50, 0xd0, 0x30, 0xb0, 0x70, 0xf0,
        0x08, 0x88, 0x48, 0xc8, 0x28, 0xa8, 0x68, 0xe8,
        0x18, 0x98, 0x58, 0xd8, 0x38, 0xb8, 0x78, 0xf8,
        0x04, 0x84, 0x44, 0xc4, 0x24, 0xa4, 0x64, 0xe4,
        0x14, 0x94, 0x54, 0xd4, 0x34, 0xb4, 0x74, 0xf4,
        0x0c, 0x8c, 0x4c, 0xcc, 0x2c, 0xac, 0x6c, 0xec,
        0x1c, 0x9c, 0x5c, 0xdc, 0x3c, 0xbc, 0x7c, 0xfc,
        0x02, 0x82, 0x42, 0xc2, 0x22, 0xa2, 0x62, 0xe2,
        0x12, 0x92, 0x52, 0xd2, 0x32, 0xb2, 0x72, 0xf2,
        0x0a, 0x8a, 0x4a, 0xca, 0x2a, 0xaa, 0x6a, 0xea,
        0x1a, 0x9a, 0x5a, 0xda, 0x3a, 0xba, 0x7a, 0xfa,
        0x06, 0x86, 0x46, 0xc6, 0x26, 0xa6, 0x66, 0xe6,
        0x16, 0x96, 0x56, 0xd6, 0x36, 0xb6, 0x76, 0xf6,
        0x0e, 0x8e, 0x4e, 0xce, 0x2e, 0xae, 0x6e, 0xee,
        0x1e, 0x9e, 0x5e, 0xde, 0x3e, 0xbe, 0x7e, 0xfe,
        0x01, 0x81, 0x41, 0xc1, 0x21, 0xa1, 0x61, 0xe1,
        0x11, 0x91, 0x51, 0xd1, 0x31, 0xb1, 0x71, 0xf1,
        0x09, 0x89, 0x49, 0xc9, 0x29, 0xa9, 0x69, 0xe9,
        0x19, 0x99, 0x59, 0xd9, 0x39, 0xb9, 0x79, 0xf9,
        0x05, 0x85, 0x45, 0xc5, 0x25, 0xa5, 0x65, 0xe5,
        0x15, 0x95, 0x55, 0xd5, 0x35, 0xb5, 0x75, 0xf5,
        0x0d, 0x8d, 0x4d, 0xcd, 0x2d, 0xad, 0x6d, 0xed,
        0x1d, 0x9d, 0x5d, 0xdd, 0x3d, 0xbd, 0x7d, 0xfd,
        0x03, 0x83, 0x43, 0xc3, 0x23, 0xa3, 0x63, 0xe3,
        0x13, 0x93, 0x53, 0xd3, 0x33, 0xb3, 0x73, 0xf3,
        0x0b, 0x8b, 0x4b, 0xcb, 0x2b, 0xab, 0x6b, 0xeb,
        0x1b, 0x9b, 0x5b, 0xdb, 0x3b, 0xbb, 0x7b, 0xfb,
        0x07, 0x87, 0x47, 0xc7, 0x27, 0xa7, 0x67, 0xe7,
        0x17, 0x97, 0x57, 0xd7, 0x37, 0xb7, 0x77, 0xf7,
        0x0f, 0x8f, 0x4f, 0xcf, 0x2f, 0xaf, 0x6f, 0xef,
        0x1f, 0x9f, 0x5f, 0xdf, 0x3f, 0xbf, 0x7f, 0xff,
    };
    return table[x];
}

2
非常有用,谢谢。似乎我的较慢的移位方法限制了嵌入式应用程序的性能。将表放置在具有rom关键字的PIC的ROM中。 - flend
1
一种更简单的方法:http://graphics.stanford.edu/~seander/bithacks.html#BitReverseTable - sleepsort
你是怎么得到这个表格的?生成这个表格的算法是什么? - Lance
@Lance 只需从0数到255,然后通过任何已知的方法反转每个字节。例如,隔离每个位,将其移动到其目标位置,然后将移动的位重新组合在一起。这是一个经典的按位与、按位移位、按位或应用。 - fredoverflow

47

参考位操作技巧获取多种解决方案。从那里复制粘贴显然很容易实现。=)

例如(在32位CPU上):

uint8_t b = byte_to_reverse;
b = ((b * 0x0802LU & 0x22110LU) | (b * 0x8020LU & 0x88440LU)) * 0x10101LU >> 16;

如果“简单实现”意味着在考试或面试时不需要参考资料,那么最安全的方法可能是逐位将数据复制到另一个变量中,并以相反的顺序进行(已在其他答案中展示)。


1
从您的URL:32位CPU:b = ((b * 0x0802LU&0x22110LU) | (b * 0x8020LU&0x88440LU)) * 0x10101LU >> 16; - Joshua
1
@Joshua:这也是我个人最喜欢的。但需要注意的是(如链接页面所述),它必须被分配或转换为uint8_t类型,否则会出现上位比特中的垃圾数据。 - Arkku
x86指令tzcntbzhi可以用来先计算floor(log_2(x + 2))并分别从tzcnt计算出的MSB上方清零位,因此在一次性情况下转换不会太昂贵。在AMD Ryzen Family 17h上,tzcnt和bzhi都是一个周期。它们支持2013年发布的x86 BMI扩展的AMD和Intel平台。 - AMDG

29

有很多方法可以反转位,具体取决于你所说的“最简单”的含义。


旋转反转

可能最合理的方法是在对第一个比特位(n & 1)应用掩码的同时旋转字节:

unsigned char reverse_bits(unsigned char b)
{
    unsigned char   r = 0;
    unsigned        byte_len = 8;

    while (byte_len--) {
        r = (r << 1) | (b & 1);
        b >>= 1;
    }
    return r;
}
  1. 由于无符号字符的长度为1个字节,即8位,因此意味着我们将扫描每个位 while (byte_len--)

  2. 首先,我们通过(b & 1)检查b是否有一个极右边的位; 如果是,则使用|设置r上的位1,并通过(r << 1)乘以2将其向左移动1位。

  3. 然后,我们通过b >>=1将无符号字符b除以2,以消除位于变量b极右边的位。 作为提醒,b >>= 1; 等同于 b /= 2;


一行代码实现反转

此解决方案归功于Rich Schroeppel在编程技巧部分

unsigned char reverse_bits3(unsigned char b)
{
    return (b * 0x0202020202ULL & 0x010884422010ULL) % 0x3ff;
}
  • 乘法操作(b * 0x0202020202ULL)创建了五个独立的8位字节模式副本,以扩展为64位值。
  • AND操作(&0x010884422010ULL)选择相对于每个10位比特组的正确(反向)位置的位。
  • 乘法和AND操作一起将比特从原始字节复制到仅出现在10位集合中的一个比特集中。原始字节的反向位位置与其在任何10位集合内的相对位置重合。
  • 最后一步(%0x3ff),它涉及通过2 ^ 10-1进行模数除法的效果是合并64位值中每组10个比特(从位置0-9,10-19,20-29,...)。它们不重叠,因此底层模数除法的加法步骤的行为类似于OR操作。

分治算法

unsigned char reverse(unsigned char b) {
   b = (b & 0xF0) >> 4 | (b & 0x0F) << 4;
   b = (b & 0xCC) >> 2 | (b & 0x33) << 2;
   b = (b & 0xAA) >> 1 | (b & 0x55) << 1;
   return b;
}

这是最受欢迎的答案,尽管有些解释,但我认为对于大多数人来说,很难想象0xF0、0xCC、0xAA、0x0F、0x33和0x55真正意味着什么。
它没有利用“0b”,这是GCC扩展,自C++14标准发布(2014年12月)以来已经包含在内,因此比这个答案更晚,该答案发布于2010年4月。
整数常量可以写成二进制常量,由“0”和“1”数字序列组成,前缀为“0b”或“0B”。这在像微控制器这样的环境中特别有用,因为它们在位级上运作得很多。
请查看下面的代码片段,以更好地记住和理解我们一次移动一半的解决方案。
unsigned char reverse(unsigned char b) {
   b = (b & 0b11110000) >> 4 | (b & 0b00001111) << 4;
   b = (b & 0b11001100) >> 2 | (b & 0b00110011) << 2;
   b = (b & 0b10101010) >> 1 | (b & 0b01010101) << 1;
   return b;
}

NB: >> 4是因为1个字节有8位,而我们要取另一半,因此这里将其右移4位。
我们可以很容易地使用相同的逻辑,只需添加两行代码即可将此解决方案应用于4个字节。由于掩码互补,我们甚至可以使用~来切换位并节省墨水。
uint32_t reverse_integer_bits(uint32_t b) {
   uint32_t mask = 0b11111111111111110000000000000000;
   b = (b & mask) >> 16 | (b & ~mask) << 16;
   mask = 0b11111111000000001111111100000000;
   b = (b & mask) >> 8 | (b & ~mask) << 8;
   mask = 0b11110000111100001111000011110000;
   b = (b & mask) >> 4 | (b & ~mask) << 4;
   mask = 0b11001100110011001100110011001100;
   b = (b & mask) >> 2 | (b & ~mask) << 2;
   mask = 0b10101010101010101010101010101010;
   b = (b & mask) >> 1 | (b & ~mask) << 1;
   return b;
}

[仅限C++] 反转任何无符号数(模板)

上述逻辑可以用循环总结,该循环可用于任何类型的无符号数:

template <class T>
T reverse_bits(T n) {
    short bits = sizeof(n) * 8; 
    T mask = ~T(0); // equivalent to uint32_t mask = 0b11111111111111111111111111111111;
    
    while (bits >>= 1) {
        mask ^= mask << (bits); // will convert mask to 0b00000000000000001111111111111111;
        n = (n & ~mask) >> bits | (n & mask) << bits; // divide and conquer
    }

    return n;
}

C++ 17 only

您可以使用一个表来存储每个字节的反转值,使用(i * 0x0202020202ULL & 0x010884422010ULL) % 0x3ff初始化一个lambda(需要使用g++ -std=c++1z编译,因为它只适用于C++17),然后返回表中的值将给您相应反转的位:

#include <cstdint>
#include <array>

uint8_t reverse_bits(uint8_t n) {
        static constexpr array<uint8_t, 256> table{[]() constexpr{
                constexpr size_t SIZE = 256;
                array<uint8_t, SIZE> result{};

                for (size_t i = 0; i < SIZE; ++i)
                    result[i] = (i * 0x0202020202ULL & 0x010884422010ULL) % 0x3ff;
                return result;
        }()};

    return table[n];
}

main.cpp

使用上述函数进行自我尝试:

#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>

template <class T>
void print_binary(T n)
{   T mask = 1ULL << ((sizeof(n) * 8) - 1);  // will set the most significant bit
    for(; mask != 0; mask >>= 1) putchar('0' | !!(n & mask));
    putchar('\n');
}

int main() {
    uint32_t n = 12;
    print_binary(n);
    n = reverse_bits(n); 
    print_binary(n);
    unsigned char c = 'a';
    print_binary(c);
    c = reverse_bits(c);
    print_binary(c);
    uint16_t s = 12;
    print_binary(s);
    s = reverse_bits(s);
    print_binary(s);
    uint64_t l = 12;
    print_binary(l);
    l = reverse_bits(l);
    print_binary(l);
    return 0;
}

使用asm volatile反转

最后,如果简单意味着更少的代码行,为什么不尝试使用内联汇编呢?

您可以通过在编译时添加-masm=intel来测试下面的代码片段:

unsigned char reverse_bits(unsigned char c) {
    __asm__ __volatile__ (R"(
        mov cx, 8       
    daloop:                   
        ror di          
        adc ax, ax      
        dec cx          
        jnz short daloop  
    ;)");
}

逐行解释:

        mov cx, 8       ; we will reverse the 8 bits contained in one byte
    daloop:             ; while loop
        shr di          ; Shift Register `di` (containing value of the first argument of callee function) to the Right
        rcl ax          ; Rotate Carry Left: rotate ax left and add the carry from shr di, the carry is equal to 1 if one bit was "lost" from previous operation 
        dec cl          ; Decrement cx
        jnz short daloop; Jump if cx register is Not equal to Zero, else end loop and return value contained in ax register

[C++ 专属] 反转任何无符号数(模板):请注意,如果类型模板参数 T 是有符号的,则掩码将表示负数,并且在负有符号整数上应用 << 将产生未定义行为。即使 T 是无符号的,mask 上第一次移位操作的结果也是实现定义的。 - clickMe
你的x86-64内联汇编是不安全的;缺少清除器和输入/输出操作数,以告诉编译器哪些寄存器是输入和输出。以这种方式编写,你需要__attribute__((naked)),并在底部加上ret指令。顺便说一下,这是针对AMD64 System V调用约定的x86-64。你刚才说的是"assembly"。在ARM或AArch64汇编中,你会使用rbit。Clang 13及更高版本确实将某些算法(循环或SWAR分而治之)识别为rbit习语:https://godbolt.org/z/14MM3cExW,至少对于32位来说,需要使用`-O3`。 - undefined
1
使用16位操作数大小的内联汇编,在假设x86-64 System V调用约定的情况下,这看起来有些奇怪。shr edx, 1是将位移入CF的稍微更高效的方法;ror具有奇怪的部分FLAGS语义,而adc eax, eax比16位更好。而dec ecx/jnzdec cx/jnz更紧凑。为了提高性能,你可能希望在循环之前执行xor eax, eax以避免错误依赖,或者能够返回一个零扩展的32位值。(实际的unsigned char返回值在寄存器的高24/56位可能有垃圾,这不是一个错误。) - undefined

28
template <typename T>
T reverse(T n, size_t b = sizeof(T) * CHAR_BIT)
{
    assert(b <= std::numeric_limits<T>::digits);

    T rv = 0;

    for (size_t i = 0; i < b; ++i, n >>= 1) {
        rv = (rv << 1) | (n & 0x01);
    }

    return rv;
}

编辑:

将其转换为一个带有可选位数的模板。


@nvl - 已修复。我一开始是将其构建为模板,但在中途决定不这样做...太多的&gt &lt。 - andand
为了更加谨慎,将 sizeof(T)*8 替换为 sizeof(T)*CHAR_BITS - Pillsy
@Pillsy - 当然,为什么不呢... 毕竟没有人会太过于追求完美,对吧? - andand
6
更加苛求一些,将 sizeof(T)*CHAR_BIT 替换为 std::numeric_limits<T>::digits (几乎是四年的苛求之后)。 - Morwenn
1
应该是 CHAR_BIT,而不是 CHAR_BITS - Xunie
1
rv = (rv << 1) | (n & 0x01); - Vignesh

17

两行文字:

for(i=0;i<8;i++)
     reversed |= ((original>>i) & 0b1)<<(7-i);

或者如果您对 "0b1" 部分有疑问:

for(i=0;i<8;i++)
     reversed |= ((original>>i) & 1)<<(7-i);

"original"是您想要反转的字节。 "reversed"是结果,初始化为0。


15

虽然可能不具备可移植性,但我会使用汇编语言。
许多汇编语言都有将一个位旋转到进位标志以及将进位标志旋转到字(或字节)中的指令。

算法如下:

for each bit in the data type:
  rotate bit into carry flag
  rotate carry flag into destination.
end-for

这个问题的高级语言代码会更加复杂,因为C和C++不支持将进位旋转和从进位旋转。必须对进位标志进行建模。

编辑: 例如汇编语言

;  Enter with value to reverse in R0.
;  Assume 8 bits per byte and byte is the native processor type.
   LODI, R2  8       ; Set up the bit counter
Loop:
   RRC, R0           ; Rotate R0 right into the carry bit.
   RLC, R1           ; Rotate R1 left, then append carry bit.
   DJNZ, R2  Loop    ; Decrement R2 and jump if non-zero to "loop"
   LODR, R0  R1      ; Move result into R0.

7
我认为这个答案并不简单。它使用了非可移植的汇编语言,并且相当复杂,以至于可以用伪代码来代替实际的汇编语言进行描述。 - deft_code
3
很简单。我把它放成伪代码,因为汇编助记符是特定于一种类型的处理器的,而且有很多不同类型的处理器。如果您希望,我可以编辑它,将其显示为简单的汇编语言。 - Thomas Matthews
可以查看编译器优化是否简化为适当的汇编指令。 - Sparky

13

我发现以下解决方案比我在这里看到的其他位操作算法更简单。

unsigned char reverse_byte(char a)
{

  return ((a & 0x1)  << 7) | ((a & 0x2)  << 5) |
         ((a & 0x4)  << 3) | ((a & 0x8)  << 1) |
         ((a & 0x10) >> 1) | ((a & 0x20) >> 3) |
         ((a & 0x40) >> 5) | ((a & 0x80) >> 7);
}

它获取字节中的每一位,并相应地进行移位,从第一位到最后一位开始。

解释:

   ((a & 0x1) << 7) //get first bit on the right and shift it into the first left position 
 | ((a & 0x2) << 5) //add it to the second bit and shift it into the second left position
  //and so on

太棒了!到目前为止,这是我最喜欢的。 - Nick Rameau
这确实很简单,但需要指出的是执行时间为O(n)而不是O(log₂ n),其中n是位数(8、16、32、64等)。 - Todd Lehman

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接