SSE2内置函数 - 找到两个无符号短向量的最大值

Question

SSE2内置函数 - 找到两个无符号短向量的最大值

3

我希望找出包含8个16位无符号整数元素的两个向量中的最大值。

__m128i vi_A= _mm_loadu_si128(reinterpret_cast<const __m128i*>(&pSrc[0])); // 8 16-Bit Elements
__m128i vi_B= _mm_loadu_si128(reinterpret_cast<const __m128i*>(&pSrc1[0])); // 8 16-Bit Elements
__m128i vi_Max = _mm_max_epi16(vi_A,vi_B);  //<-- Error

但是_mm_max_epi16是一个有符号整数比较，这会导致溢出问题。因此我尝试使用SSE4.1内置函数的无符号版本。

vi_Max = _mm_max_epu16(vi_A,vi_B);

但是我不允许使用SSE4.1内部函数，那么有什么高效的方法可以找到这些元素的最大值呢？

- Balaji R

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Paul R · Accepted Answer

有一种（比较低效的）方法是通过将输入值偏移0x8000，然后将此偏移量加回结果来实现，例如：

#ifndef __SSE4_1__
inline __m128i _mm_max_epu16(const __m128i v0, const __m128i v1)
{
    return _mm_add_epi16(
               _mm_max_epi16(
                   _mm_sub_epi16(v0, _mm_set1_epi16(0x8000)),
                   _mm_sub_epi16(v1, _mm_set1_epi16(0x8000))),
               _mm_set1_epi16(0x8000));
}
#endif

使用gcc或clang编译器，这会生成一个常量的加载指令和四个算术指令。

注意，您可以使用_mm_xor_si128替代_mm_add_epi16/_mm_sub_epi16，这可能更清晰地表达意图，并且在目标架构上可能具有更好的性能：

#ifndef __SSE4_1__
inline __m128i _mm_max_epu16(const __m128i v0, const __m128i v1)
{
    return _mm_xor_si128(
               _mm_max_epi16(
                   _mm_xor_si128(v0, _mm_set1_epi16(0x8000)),
                   _mm_xor_si128(v1, _mm_set1_epi16(0x8000))),
               _mm_set1_epi16(0x8000));
}
#endif