111得票3回答
为什么向量化通常比循环更快?

为什么在最低层的硬件执行操作和通用底层操作(即:所有编程语言实际运行代码时通用的事物)中,矢量化通常比循环快得多? 在循环时,计算机做了什么,而在使用矢量化时它不做什么(我指的是计算机执行的实际计算,而不是程序员编写的内容),或者它做了哪些不同的事情? 我一直无法说服自己为什么差异应该如此...

7得票1回答
一种高效(在Ryzen上)的方法,用于从__m256中提取奇数元素到__m128中。

有没有一种内在的或者其他高效的方法,可以将AVX寄存器的64位组件重新打包成SSE寄存器?使用AVX2的解决方案也可以。 到目前为止,我正在使用以下代码,但是性能分析器显示它在Ryzen 1800X上运行较慢: // Global constant const __m256i gHigh3...

20得票2回答
如何对__m256进行水平求和?

我想使用AVX指令对__m256向量的组成部分进行水平求和。 在SSE中,我可以使用_mm_hadd_ps(xmm,xmm); _mm_hadd_ps(xmm,xmm); 要获得向量第一个元素的结果,但这种方法在256位版本的函数(_mm256_hadd_ps)中无法扩展。 如何计算一个__...

9得票2回答
Numpy矢量化,使用列表作为参数

numpy中的vectorize函数非常有用,但在函数参数是列表而不是标量时,它的表现不佳。以一个例子来说明: import numpy as np def f(x, A): print "type(A)=%s, A=%s"%(type(A),A) return sum(A...

46得票5回答
能否将一个依赖于前一个元素的NumPy数组的递归计算向量化?

T(i) = Tm(i) + (T(i-1)-Tm(i))**(-tau(i)) Tm和tau是之前计算过的NumPy向量,且长度相同,目标是创建一个新的向量T。其中的i只是为了指示所需元素的索引。 在这种情况下,需要使用for循环吗?

56得票3回答
MATLAB中对向量进行索引是否效率低下?

背景 我的问题是基于一些简单的观察而提出的,这些观察在一定程度上削弱了经验丰富的MATLAB用户通常持有/做出的信仰/假设: MATLAB在内置函数和基本语言特性(如向量和矩阵索引)方面进行了非常好的优化。 在MATLAB中,循环速度较慢(尽管有JIT),如果算法可以用本机“向量化”的方...

1148得票12回答
分组函数(tapply,by,aggregate)和 *apply 系列

每当我想要在R中做一些“映射”时,我通常会尝试使用apply系列中的一个函数。然而,我从未完全理解它们之间的差异——{sapply、lapply等}如何将函数应用于输入/分组输入,输出将是什么样子,甚至输入可以是什么——所以我经常只是一个一个地尝试,直到得到我想要的结果。有人能解释一下在什么情...

35得票1回答
比较BSXFUN和REPMAT

之前有一些问题涉及了bsxfun和repmat的性能比较,其中之一是:Matlab - bsxfun no longer faster than repmat?。这个问题尝试研究repmat和bsxfun的性能比较,特别是针对从输入数组本身的列中减去输入数组均值的操作,并且只探索了bsxfun...

8得票3回答
如何向量化并加速大型数组计算?

我目前正在尝试计算一个10,000 x 10,000值数组中所有子正方形的和。例如,如果我的数组是: 1 1 1 2 2 2 3 3 3 I want the result to be : 1+1+1+2+2+2+3+3+3 [sum ...

15得票1回答
如何向量化R中的strsplit函数?

在创建使用strsplit的函数时,向量输入不会按预期工作,并且需要使用sapply。这是由于strsplit生成的列表输出。是否有一种矢量化的方法 - 即函数为输入的每个元素产生正确的列表元素?例如,计算字符向量中单词长度:words <- c("a","quick","brown",...