对于编译时常量移位计数,您可以得到相当不错的结果。否则实际上不行。
这只是您问题中
r0
/
r1
代码的SSE实现,因为没有其他明显的方法可以做到这一点。变量计数移位仅适用于向量元素内的位移,而不适用于整个寄存器的字节移位。因此,我们只需将低64位传递到高64位,并使用可变计数移位将它们放在正确的位置即可。
#include <immintrin.h>
__m128i mm_bitshift_left(__m128i x, unsigned count)
{
__m128i carry = _mm_bslli_si128(x, 8);
if (count >= 64)
return _mm_slli_epi64(carry, count-64);
carry = _mm_srli_epi64(carry, 64-count);
x = _mm_slli_epi64(x, count);
return _mm_or_si128(x, carry);
}
__m128i mm_bitshift_left_3(__m128i x) {
return mm_bitshift_left(x, 3);
}
__m128i mm_bitshift_left_100(__m128i x) { return mm_bitshift_left(x, 100); }
我以为这会比实际情况更不方便。即使计数不是编译时常量,
_mm_slli_epi64
在 gcc/clang/icc 上也可以工作(从整数寄存器生成
movd
到 xmm 寄存器)。有一个
_mm_sll_epi64 (__m128i a, __m128i count)
(注意缺少
i
),但至少现在,
i
内置函数可以生成两种形式的
psllq
。
编译时常数版本相当高效,
编译为4条指令(如果没有AVX则为5条):
mm_bitshift_left_3(long long __vector(2)):
vpslldq xmm1, xmm0, 8
vpsrlq xmm1, xmm1, 61
vpsllq xmm0, xmm0, 3
vpor xmm0, xmm0, xmm1
ret
性能表现:
在Intel SnB/IvB/Haswell上,这个操作的延迟为3个周期(vpslldq(1) -> vpsrlq(1) -> vpor(1)),吞吐量每2个时钟周期限制为1个(饱和向量移位单元在端口0上)。字节移位在不同端口的洗牌单元上运行。立即计数向量移位是所有单独uop指令,因此当与其他代码混合使用时,仅占用4个融合域uops管道空间。(变量计数向量移位是2 uop,2个周期延迟,因此从计算指令数量来看,该函数的变量计数版本比它看起来更糟糕。)
或当计数>=64时:
mm_bitshift_left_100(long long __vector(2)):
vpslldq xmm0, xmm0, 8
vpsllq xmm0, xmm0, 36
ret
如果您的移位计数不是编译时常量,则必须根据计数是否大于64进行分支,以确定是左移还是右移进位。我认为移位计数被解释为无符号整数,因此负计数是不可能的。
将int计数和64-count转换为向量寄存器需要额外的指令。使用向量比较和混合指令无需分支可能是可行的,但是分支可能是一个好主意。
__uint128_t
在GP寄存器中的变量计数版本看起来相当不错,比SSE版本更好。Clang做得比gcc稍微好一点,发出较少的mov
指令, 但对于计数 >= 64 的情况仍使用了两个 cmov
指令。(因为x86整数移位指令掩码计数,而不是饱和)
__uint128_t leftshift_int128(__uint128_t x, unsigned count) {
return x << count; // undefined if count >= 128
}
m
恰好是 8 位的倍数,并且您拥有 SSSE3,那么您很幸运:使用palignr
。如果没有,情况会变得非常丑陋,您真的需要进行移位、AND、洗牌和OR操作。 - Iwillnotexist Idonotexist