在CPU上使用NumPy和在GPU上使用gnumpy进行矩阵乘法会得到不同的结果。

Question

在CPU上使用NumPy和在GPU上使用gnumpy进行矩阵乘法会得到不同的结果。

15

我正在使用gnumpy来加速神经网络训练中的一些计算，通过在GPU上计算。

我获得了所需的加速效果，但有点担心numpy（CPU）与gnumpy（GPU）之间的结果差异。

我有以下测试脚本来说明问题：

import gnumpy as gpu
import numpy as np

n = 400

a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print ga.as_numpy_array(dtype=np.float32) - a

提供输出的功能：

[[  1.52587891e-05  -2.28881836e-05   2.28881836e-05 ...,  -1.52587891e-05
    3.81469727e-05   1.52587891e-05]
 [ -5.34057617e-05  -1.52587891e-05   0.00000000e+00 ...,   1.52587891e-05
    0.00000000e+00   1.52587891e-05]
 [ -1.52587891e-05  -2.28881836e-05   5.34057617e-05 ...,   2.28881836e-05
    0.00000000e+00  -7.62939453e-06]
 ..., 
 [  0.00000000e+00   1.52587891e-05   3.81469727e-05 ...,   3.05175781e-05
    0.00000000e+00  -2.28881836e-05]
 [  7.62939453e-06  -7.62939453e-06  -2.28881836e-05 ...,   1.52587891e-05
    7.62939453e-06   1.52587891e-05]
 [  1.52587891e-05   7.62939453e-06   2.28881836e-05 ...,  -1.52587891e-05
    7.62939453e-06   3.05175781e-05]]

正如您所看到的，这些差异大约在10^-5的数量级。

问题是：这些差异应该让我担心吗？还是这是预期的行为？

附加信息：

GPU：GeForce GTX 770；
numpy版本：1.6.1

当我使用梯度检查（有限差分逼近）来验证从numpy切换到gnumpy后所做的小修改没有出现问题时，我注意到了这个问题。正如人们可能预料的那样，32位精度下的梯度检查不起作用（gnumpy不支持float64），但令我惊讶的是，在相同的精度下，使用CPU和GPU时错误不同。

在一个小型测试神经网络上，CPU和GPU上的误差如下所示：

gradient checking errors

由于误差大小相似，我猜这些差异是可以接受的？

在阅读了BenC评论中引用的文章之后，我基本确定这些差异大部分可以通过一个设备使用融合乘加（FMA）指令而另一个设备不使用来解释。

我实现了论文中的例子：

import gnumpy as gpu
import numpy as np

a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print "CPU", a
print "GPU", ga
print "DIFF", ga - a

>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08

......而且这种差异类似于FMA与串行算法的区别（尽管由于某些原因，两种结果与论文中的精确结果相比都更加偏离）。

我正在使用的GPU（GeForce GTX 770）支持FMA指令，而CPU则不支持（我有一颗Ivy Bridge Intel® Xeon(R) CPU E3-1225 V2，但是Intel在Haswell产品中引入了FMA3指令）。

其他可能的解释包括在后台使用的不同数学库或由于CPU与GPU上不同的并行级别所导致的操作序列的差异。

- Ottokar

4

以下是为您提供的一篇好读物：精度与性能：NVIDIA GPU浮点数和IEEE 754合规性，它涵盖了NVIDIA GPU的浮点数和IEEE 754标准的相关内容，并讲解了如何提高计算机系统的性能和精度。 - BenC

4

依据您的输入数据而言，10^-5 的差异有可能是可以忽略不计的，也有可能是极其重要的。那么，您的输入数据处于哪个数量级？ - HyperCube

@HyperCube，差异取决于输入的大小。在测试脚本中，输入位于区间[0,1]；输出的数量级约为10^2。 - Ottokar

2个回答

4

RTX显卡在图像渲染时使用半精度浮点运算，因为其速度更快。但在用于AI的浮点数乘法时，必须告诉GPU使用全精度。精度对于进行AI非常重要。

当我尝试将Cuda与RTX 2080 Ti一起使用时，也经历了与您相同的浮点差异。

- Alex Bedro

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ali_m · Accepted Answer

我建议使用np.allclose来测试两个浮点数数组是否接近相等。

当你只关注在两个结果数组中的值之间的绝对差异时，np.allclose也会考虑它们的相对差异。例如，假设你输入的数组值大了1000倍-那么两个结果之间的绝对差异也将增加1000倍，但这并不意味着两个点积不够精确。

np.allclose只有在每对测试数组a和b中的对应元素满足以下条件时才会返回True：

abs(a - b) <= (atol + rtol * abs(b))

默认情况下，rtol=1e-5和atol=1e-8。这些容限是一个很好的“经验法则”，但它们是否足够小取决于您特定的应用。例如，如果您处理的值小于1e-8，则1e-8的绝对差异将是一场灾难！

如果您尝试使用默认容限调用np.allclose来比较两个结果，您会发现np.allclose返回True。那么我的猜测是这些差异可能已经足够小，不值得担心。这实际上取决于您在处理结果方面所做的事情。