在哪些情况下，交叉熵优于均方误差？

Question

66

尽管以上两种方法都提供了更好的预测接近度得分，但交叉熵仍然更受欢迎。在每种情况下都是如此吗？还是有一些奇特的场景，我们更喜欢交叉熵而不是均方误差(MSE)？

- Amogh Mishra

请参见 http://heliosphan.org/cross-entropy.html 和 http://heliosphan.org/generative-models.html。 - redcalx

3个回答

45

当你从概率和分布的角度推导出成本函数时，你会发现当你假设误差服从正态分布时，均方误差(MSE)会发生，而当你假设误差服从二项分布时，交叉熵(Cross Entropy)会发生。这意味着当你使用MSE时，隐含地进行回归（估计），而当你使用CE时，则在进行分类。希望这能有所帮助。

- Duc Nguyen

1

假设我们有两个概率分布向量：实际[0.3，0.5，0.1，0.1]和预测[0.4，0.2，0.3，0.1]。如果我们使用MSE来确定损失，为什么这比KL散度更差？当我们在这样的数据上执行MSE时，会错过哪些特征？ - akshit bhatia

1

你能展示一下高斯如何导致均方误差，二项式如何导致交叉熵吗？ - Kunyu Shi

1

@KunyuShi请查看正态分布和伯努利分布的PDF / PMF。如果我们取它们的对数（通常这样做是为了简化损失函数），则分别得到MSE和二元交叉熵。 - A_P

13

如果你进行逻辑回归，你会使用sigmoid函数来估计概率，交叉熵作为损失函数，并使用梯度下降来最小化它。如果使用均方误差作为损失函数，可能会导致非凸问题，其中可能存在局部最小值。而使用交叉熵将导致一个凸问题，其中可能找到最优解。

- Julian

5

这个 YouTube 链接已经失效。 - Paul

分享一个不同的视频，它也解释了凸性点 - youtu.be/m0ZeT1EWjjI另外，还要看这个额外的视频 - youtu.be/gIx974WtVb4 - user1412066

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- lejlot · Accepted Answer

交叉熵更适用于分类问题，而均方误差则是回归问题中最佳的选择之一。这直接源自问题本身的陈述——在分类中，你使用非常特定的可能输出值集合，因此均方误差定义不清（因为它没有这种知识，从而以不兼容的方式惩罚错误）。为了更好地理解这种现象，我们需要关注并理解以下三种之间的关系：

你会注意到，两者都可以被视为最大似然估计器，只是对于因变量有不同的假设。