我刚刚注意到,我的一个脚本的执行时间只需将乘法更改为除法,就能将时间减少近一半。
为了调查这个问题,我编写了一个小例子:
import numpy as np
import timeit
# uint8 array
arr1 = np.random.randint(0, high=256, size=(100, 100), dtype=np.uint8)
# float32 array
arr2 = np.random.rand(100, 100).astype(np.float32)
arr2 *= 255.0
def arrmult(a):
"""
mult, read-write iterator
"""
b = a.copy()
for item in np.nditer(b, op_flags=["readwrite"]):
item[...] = (item + 5) * 0.5
def arrmult2(a):
"""
mult, index iterator
"""
b = a.copy()
for i, j in np.ndindex(b.shape):
b[i, j] = (b[i, j] + 5) * 0.5
def arrmult3(a):
"""
mult, vectorized
"""
b = a.copy()
b = (b + 5) * 0.5
def arrdiv(a):
"""
div, read-write iterator
"""
b = a.copy()
for item in np.nditer(b, op_flags=["readwrite"]):
item[...] = (item + 5) / 2
def arrdiv2(a):
"""
div, index iterator
"""
b = a.copy()
for i, j in np.ndindex(b.shape):
b[i, j] = (b[i, j] + 5) / 2
def arrdiv3(a):
"""
div, vectorized
"""
b = a.copy()
b = (b + 5) / 2
def print_time(name, t):
print("{: <10}: {: >6.4f}s".format(name, t))
timeit_iterations = 100
print("uint8 arrays")
print_time("arrmult", timeit.timeit("arrmult(arr1)", "from __main__ import arrmult, arr1", number=timeit_iterations))
print_time("arrmult2", timeit.timeit("arrmult2(arr1)", "from __main__ import arrmult2, arr1", number=timeit_iterations))
print_time("arrmult3", timeit.timeit("arrmult3(arr1)", "from __main__ import arrmult3, arr1", number=timeit_iterations))
print_time("arrdiv", timeit.timeit("arrdiv(arr1)", "from __main__ import arrdiv, arr1", number=timeit_iterations))
print_time("arrdiv2", timeit.timeit("arrdiv2(arr1)", "from __main__ import arrdiv2, arr1", number=timeit_iterations))
print_time("arrdiv3", timeit.timeit("arrdiv3(arr1)", "from __main__ import arrdiv3, arr1", number=timeit_iterations))
print("\nfloat32 arrays")
print_time("arrmult", timeit.timeit("arrmult(arr2)", "from __main__ import arrmult, arr2", number=timeit_iterations))
print_time("arrmult2", timeit.timeit("arrmult2(arr2)", "from __main__ import arrmult2, arr2", number=timeit_iterations))
print_time("arrmult3", timeit.timeit("arrmult3(arr2)", "from __main__ import arrmult3, arr2", number=timeit_iterations))
print_time("arrdiv", timeit.timeit("arrdiv(arr2)", "from __main__ import arrdiv, arr2", number=timeit_iterations))
print_time("arrdiv2", timeit.timeit("arrdiv2(arr2)", "from __main__ import arrdiv2, arr2", number=timeit_iterations))
print_time("arrdiv3", timeit.timeit("arrdiv3(arr2)", "from __main__ import arrdiv3, arr2", number=timeit_iterations))
这将打印以下时间:
uint8 arrays
arrmult : 2.2004s
arrmult2 : 3.0589s
arrmult3 : 0.0014s
arrdiv : 1.1540s
arrdiv2 : 2.0780s
arrdiv3 : 0.0027s
float32 arrays
arrmult : 1.2708s
arrmult2 : 2.4120s
arrmult3 : 0.0009s
arrdiv : 1.5771s
arrdiv2 : 2.3843s
arrdiv3 : 0.0009s
我一直认为乘法比除法计算更便宜。然而,对于
uint8
来说,除法似乎几乎是两倍有效的。这是否与* 0.5
需要在浮点数中计算乘法,然后将结果强制转换回整数有关?至少对于浮点数,乘法似乎比除法快。这通常成立吗?
为什么
uint8
中的乘法比float32
中的乘法更昂贵?我认为8位无符号整数应该比32位浮点数计算速度快得多?能否解释一下这个问题?
编辑:为了获得更多数据,我已经包括了向量化函数(如建议),并添加了索引迭代器。向量化函数要快得多,因此不能真正进行比较。但是,如果将
timeit_iterations
设置得更高一些,针对向量化函数,结果表明对于uint8
和float32
,乘法都更快。我想这会更加混淆?!也许乘法实际上总是比除法更快,但是for循环中的主要性能泄漏不是算术操作,而是循环本身。尽管这并不能解释为什么循环对不同的操作表现不同。
编辑2:正如@jotasi所述,我们正在寻找关于
division
与multiplication
以及int
(或uint8
)与float
(或float32
)的全面解释。此外,解释向量化方法和迭代器的不同趋势也很有趣,因为在向量化情况下,除法似乎较慢,而在迭代器情况下则更快。
b = (b+5) * 0.5
和b = (b+5) / 2
替换 for 循环会导致除法变得更慢。 - jotasiarrdiv3
函数中,你应该将b = (b + 5) / 0.5
改为b = (b + 5) / 2
。 - jotasifloat32
中div3
的时间没有改变,而uint8
则增加到了2.7E-3
。我猜向量化版本的时间已经太低,无法提供精确的测量结果了?! - daniel451