我正在学习卷积神经网络,对CNN中的某些层感到困惑。
关于ReLu...我只知道它是无限逻辑函数之和,但ReLu并不连接任何上层。我们为什么需要ReLu,它是如何工作的?
关于Dropout...Dropout是如何工作的?我听了G. Hinton的一个视频讲座。他说有一个策略,就是在训练权重时随机忽略一半的节点,并在预测时减半权重。他说这受到了随机森林的启发,其工作方式与计算这些随机训练模型的几何平均值完全相同。
这个策略和Dropout是否相同?
有人能帮我解决这个问题吗?
我正在学习卷积神经网络,对CNN中的某些层感到困惑。
关于ReLu...我只知道它是无限逻辑函数之和,但ReLu并不连接任何上层。我们为什么需要ReLu,它是如何工作的?
关于Dropout...Dropout是如何工作的?我听了G. Hinton的一个视频讲座。他说有一个策略,就是在训练权重时随机忽略一半的节点,并在预测时减半权重。他说这受到了随机森林的启发,其工作方式与计算这些随机训练模型的几何平均值完全相同。
这个策略和Dropout是否相同?
有人能帮我解决这个问题吗?
ReLu(修正线性单元): 修正线性单元是一种激活函数,f(x) = Max(0, x),可以像其他激活函数一样被神经元使用,使用修正线性单元作为激活函数的节点称为 ReLu 节点。主要原因是与更常规的激活函数(如 sigmoid 和双曲正切)相比,它能够更高效地计算,而且不会对泛化精度造成显著影响。修正线性单元激活函数用于添加非线性到网络中,否则网络只能计算线性函数。
Dropout: 是的,所描述的技术与 dropout 相同。随机忽略节点的原因在于防止节点之间出现相互依赖(即节点不学习依赖于另一个节点输入值的函数),这使得网络可以学习到更加稳健的关系。实现 dropout 与从网络委员会中取平均值具有几乎相同的效果,但其时间和存储成本都显著较低。