我正在使用Intel的AVX指令的C内置函数编写代码。如果我有一个打包的双精度向量(a __m256d
),最有效的方法是什么(即操作次数最少),将它们存储到不同的内存位置(即我需要将它们扇出到不同的位置,使它们不再打包)? 伪代码:
__m256d *src;
double *dst;
int dst_dist;
dst[0] = src[0];
dst[dst_dist] = src[1];
dst[2 * dst_dist] = src[2];
dst[3 * dst_dist] = src[3];
使用SSE,我可以使用_mm_storel_pi和_mm_storeh_pi内部函数,使用__m128类型做到这一点。但是我没有找到类似的AVX方法来将64位数据存储到内存中。是否存在这样的方法?
__m256d
。__m256
是8个浮点数。 - Norbert P.__m256d
;我实际上正在使用浮点数。我想要提取和存储的双精度数实际上是复数(两个浮点数,或一个双精度数的大小)。 - Jason R