Wikipedia关于反向传播算法的页面中提到:
计算梯度的反向传播算法已经被发现多次,并且是一种称为反向累积模式下的自动微分技术的特殊情况。
能否有人用通俗易懂的语言解释一下这个声明?这里所微分的函数是什么?“特殊情况”是什么?使用的是伴随值本身还是最终梯度?
更新:自写此文以来,我发现该主题在深度学习书籍第6.5.9节中有涉及。请参见https://www.deeplearningbook.org/。我还发现哈伯和鲁索托的论文“稳定的深度神经网络架构”对此问题很有启发性。