我正在使用gnumpy来加速神经网络训练中的一些计算,通过在GPU上计算。
我获得了所需的加速效果,但有点担心numpy(CPU)与gnumpy(GPU)之间的结果差异。
我有以下测试脚本来说明问题:
import gnumpy as gpu
import numpy as np
n = 400
a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print ga.as_numpy_array(dtype=np.float32) - a
提供输出的功能:
[[ 1.52587891e-05 -2.28881836e-05 2.28881836e-05 ..., -1.52587891e-05
3.81469727e-05 1.52587891e-05]
[ -5.34057617e-05 -1.52587891e-05 0.00000000e+00 ..., 1.52587891e-05
0.00000000e+00 1.52587891e-05]
[ -1.52587891e-05 -2.28881836e-05 5.34057617e-05 ..., 2.28881836e-05
0.00000000e+00 -7.62939453e-06]
...,
[ 0.00000000e+00 1.52587891e-05 3.81469727e-05 ..., 3.05175781e-05
0.00000000e+00 -2.28881836e-05]
[ 7.62939453e-06 -7.62939453e-06 -2.28881836e-05 ..., 1.52587891e-05
7.62939453e-06 1.52587891e-05]
[ 1.52587891e-05 7.62939453e-06 2.28881836e-05 ..., -1.52587891e-05
7.62939453e-06 3.05175781e-05]]
正如您所看到的,这些差异大约在10^-5的数量级。
问题是:这些差异应该让我担心吗?还是这是预期的行为?
附加信息:
- GPU:GeForce GTX 770;
- numpy版本:1.6.1
当我使用梯度检查(有限差分逼近)来验证从numpy切换到gnumpy后所做的小修改没有出现问题时,我注意到了这个问题。正如人们可能预料的那样,32位精度下的梯度检查不起作用(gnumpy不支持float64),但令我惊讶的是,在相同的精度下,使用CPU和GPU时错误不同。
在一个小型测试神经网络上,CPU和GPU上的误差如下所示:
由于误差大小相似,我猜这些差异是可以接受的?
在阅读了BenC评论中引用的文章之后,我基本确定这些差异大部分可以通过一个设备使用融合乘加(FMA)指令而另一个设备不使用来解释。
我实现了论文中的例子:
import gnumpy as gpu
import numpy as np
a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print "CPU", a
print "GPU", ga
print "DIFF", ga - a
>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08
......而且这种差异类似于FMA与串行算法的区别(尽管由于某些原因,两种结果与论文中的精确结果相比都更加偏离)。
我正在使用的GPU(GeForce GTX 770)支持FMA指令,而CPU则不支持(我有一颗Ivy Bridge Intel® Xeon(R) CPU E3-1225 V2,但是Intel在Haswell产品中引入了FMA3指令)。
其他可能的解释包括在后台使用的不同数学库或由于CPU与GPU上不同的并行级别所导致的操作序列的差异。