我一直在追随Andrew NG关于神经网络的视频。在这些视频中,他并没有为每个神经元关联一个偏置,而是在每个层的头部添加了一个偏置单元,在计算完激活后与计算一起使用来计算下一层的激活(前向传播)。
然而,在其他一些机器学习博客和视频中,例如这个,每个神经元都有一个偏置。这种差异的原因是什么,有什么影响?
我一直在追随Andrew NG关于神经网络的视频。在这些视频中,他并没有为每个神经元关联一个偏置,而是在每个层的头部添加了一个偏置单元,在计算完激活后与计算一起使用来计算下一层的激活(前向传播)。
然而,在其他一些机器学习博客和视频中,例如这个,每个神经元都有一个偏置。这种差异的原因是什么,有什么影响?
这两种方法都代表着相同的偏置概念。对于每个单元(除了输入节点),您需要计算激活函数值的加权点积,并将其与来自前一层(在前馈网络的情况下)的激活向量和标量偏置值相加:
(w * a) + b
在Andrew Ng的课程中,这个值是通过使用向量化技巧来计算的,在这种技巧中,你需要将你的激活值与指定的偏置常数(通常为1)连接起来,这样就可以完成任务了(因为这个常数对于不同节点有自己的权重 - 所以这完全相当于为每个节点增加另一个偏置值)。