苹果加速框架：对向量进行缩放和归一化

Question

苹果加速框架：对向量进行缩放和归一化

3

我能在Accelerate.framework中使用哪些函数来对向量进行标量缩放和归一化？我在文档中找到了一个可能适用于缩放的函数，但我对它的操作感到困惑。

vDSP_vsma
Vector scalar multiply and vector add; single precision.

void vDSP_vsma (
   const float *__vDSP_A,
   vDSP_Stride __vDSP_I,
   const float *__vDSP_B,
   const float *__vDSP_C,
   vDSP_Stride __vDSP_K,
   float *__vDSP_D,
   vDSP_Stride __vDSP_L,
   vDSP_Length __vDSP_N
);

- Justin Meiners

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- tc. · Accepted Answer

规范化向量的最简单方法是：

int n = 3;
float v[3] = {1, 2, 3};
cblas_sscal(n, 1.0 / cblas_snrm2(n, v, 1), v, 1);

你需要：

#include <cblas.h>

或者

#include <vblas.h>

（或两者兼有）。请注意，当它们作用于向量时，其中几个函数位于“矩阵”部分。

如果您想使用vDSP函数，请参见“矢量标量除法”部分。您可以执行以下几个操作：

vDSP_dotpr()、sqrt()和vDSP_vsdiv()
vDSP_dotpr()、vrsqrte_f32()和vDSP_vsmul()（不过，vrsqrte_f32()是NEON GCC内置的，因此您需要检查是否编译为armv7）。
vDSP_rmsqv()，乘以sqrt(n)，然后vDSP_vsdiv()

之所以没有矢量归一化函数，是因为vDSP中的“矢量”意味着“同时处理很多东西”（最多约4096/8192），而不是线性代数中的“矢量”。对于一个1024元素的向量来说，归一化几乎没有意义，而快速归一化3元素向量的函数并不会显著提高应用程序的速度，这就是为什么没有这样一个函数。

vDSP的预期用途更像是将1024个2或3元素向量归一化。我可以找到几种方法来实现这一点：

使用vDSP_vdist()获取长度向量，然后使用vDSP_vdiv()。对于长度大于2的向量，您必须多次使用vDSP_vdist()。
使用vDSP_vsq()对所有输入进行平方，使用vDSP_vadd()多次添加所有输入，相当于vDSP_vsqrt()或vDSP_vrsqrt()，然后使用vDSP_vmul()或vDSP_vdiv()。编写等效的vDSP_vsqrt()或vDSP_vrsqrt()应该不太难。
各种假装输入是复杂向量的方式。不太可能更快。

当然，如果您没有需要归一化的1024个向量，请不要过度复杂化问题。

注：

我不使用“二维向量”和“三维向量”，以避免与相对论中的“四维向量”混淆。
一个好的选择是使你的L1数据缓存几乎填满。这并不困难；它们在过去十年左右基本上保持不变，为32K（它们可能在超线程CPU的虚拟核之间共享，并且一些旧的/便宜的处理器可能为16K），因此，在浮点数的原地操作中，你最多应该做到约8192。你可能需要减去一些堆栈空间，如果你正在进行几个连续的操作，你可能想把它都保存在缓存中；1024或2048似乎相当明智，任何更多的操作可能会带来递减收益。如果你在意，可以测量性能...