浮点数向量的SSE降维

Question

浮点数向量的SSE降维

9

我可以用SSE指令来获取浮点向量元素的和（降维）。以下是简单的串行代码：

void(float *input, float &result, unsigned int NumElems)
{
     result = 0;
     for(auto i=0; i<NumElems; ++i)
         result += input[i];
}

- gorill

3

你有尝试过什么吗？ - harold

2

你是否真正查看了生成的代码？至少我的经验是，gcc在可能的情况下执行SSE指令做得非常好 - 但可能需要-O3。 - Mats Petersson

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Paul R · Accepted Answer

通常在循环中会生成4个部分和，然后在循环后水平地加总这4个元素，例如：

一般在循环中生成四个部分和，之后只需要对循环后的这四个元素进行横向求和即可，例如：

#include <cassert>
#include <cstdint>
#include <emmintrin.h>

float vsum(const float *a, int n)
{
    float sum;
    __m128 vsum = _mm_set1_ps(0.0f);
    assert((n & 3) == 0);
    assert(((uintptr_t)a & 15) == 0);
    for (int i = 0; i < n; i += 4)
    {
        __m128 v = _mm_load_ps(&a[i]);
        vsum = _mm_add_ps(vsum, v);
    }
    vsum = _mm_hadd_ps(vsum, vsum);
    vsum = _mm_hadd_ps(vsum, vsum);
    _mm_store_ss(&sum, vsum);
    return sum;
}

注意：对于上面的示例，a 必须是16字节对齐的，并且n必须是4的倍数。如果无法保证 a 的对齐，则应使用 _mm_loadu_ps 代替 _mm_load_ps。如果不能保证 n 是4的倍数，则在函数末尾添加一个标量循环以累加剩余元素。