小批量梯度下降和梯度下降之间是否存在固定的关系?

4
对于凸优化,例如逻辑回归。
例如我有100个训练样本。 在小批量梯度下降中,我将批量大小设置为10。
因此,在进行了10次小批量梯度下降更新后。 我可以通过一次梯度下降更新得到相同的结果吗? 对于非凸优化,例如神经网络。
我知道小批量梯度下降有时可以避免一些局部最优解。 但它们之间存在固定关系吗。
1个回答

6
当我们说批量梯度下降时,它使用所有数据来更新参数。下面是批量梯度下降的示例。请注意,批量梯度下降的每次迭代都涉及计算整个训练数据集上损失函数梯度的平均值。在图中,-gamma是学习速率的负数。

enter image description here

当批量大小为1时,称为随机梯度下降(GD)。
当您将批量大小设置为10(假设总训练数据大小>> 10),则此方法称为小批量随机GD,它是真正的随机GD和批处理GD之间的折衷。小批量比真正的随机梯度下降表现更好,因为在每个步骤计算的梯度使用更多的训练样例,通常会看到更平滑的收敛。下面是SGD的示意图。在这种在线学习设置中,更新的每个迭代都包括从外部世界选择一个随机训练实例(z_t)并更新参数w_t。

enter image description here

我在这里附上的两个图来自于这篇论文
维基百科得知:
随机梯度下降法的收敛性已经通过凸优化理论和随机逼近理论进行了分析。简而言之,当学习率\alpha以适当的速率下降,并且在相对温和的假设条件下,当目标函数为凸函数或拟凸函数时,随机梯度下降法几乎肯定收敛于全局最小值;否则几乎肯定收敛于局部最小值。这实际上是Robbins-Siegmund定理的一个结果。
关于你的问题:
[convex case] Can I get the same result with one times gradient decent updating?

如果“相同结果”的含义是收敛到全局最小值,那么是的。这在L´eon Bottou的paper中得到了证实。即SGD或mini-batch SGD几乎肯定会收敛到全局最小值。请注意,当我们说几乎肯定时:
显然,任何在线学习算法都可能被一致选择的非常不可能的示例所误导。因此,没有希望证明该算法始终收敛。那么最好的结果就是几乎肯定收敛,也就是说,该算法以概率1收敛于解决方案。
对于非凸情况,在同一篇论文中(第5节)也被证明,随机或小批量收敛到局部最小值几乎肯定。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接