我有一些在循环中的代码
for(int i = 0; i < n; i++)
{
u[i] = c * u[i] + s * b[i];
}
所以,u和b是同样长度的向量,c和s是标量。这段代码是否适合使用SSE进行向量化以获得加速?
更新
我学习了向量化(如果使用内部函数则并不难),并在SSE中实现了我的循环。然而,在VC++编译器中设置SSE2标志时,我得到的性能与我的SSE代码相当。另一方面,英特尔编译器比我的SSE代码或VC++编译器快得多。
以下是我编写的参考代码
double *u = (double*) _aligned_malloc(n * sizeof(double), 16);
for(int i = 0; i < n; i++)
{
u[i] = 0;
}
int j = 0;
__m128d *uSSE = (__m128d*) u;
__m128d cStore = _mm_set1_pd(c);
__m128d sStore = _mm_set1_pd(s);
for (j = 0; j <= i - 2; j+=2)
{
__m128d uStore = _mm_set_pd(u[j+1], u[j]);
__m128d cu = _mm_mul_pd(cStore, uStore);
__m128d so = _mm_mul_pd(sStore, omegaStore);
uSSE[j/2] = _mm_add_pd(cu, so);
}
for(; j <= i; ++j)
{
u[j] = c * u[j] + s * omegaCache[j];
}