尽管以上两种方法都提供了更好的预测接近度得分,但交叉熵仍然更受欢迎。在每种情况下都是如此吗?还是有一些奇特的场景,我们更喜欢交叉熵而不是均方误差(MSE)?
当你从概率和分布的角度推导出成本函数时,你会发现当你假设误差服从正态分布时,均方误差(MSE)会发生,而当你假设误差服从二项分布时,交叉熵(Cross Entropy)会发生。这意味着当你使用MSE时,隐含地进行回归(估计),而当你使用CE时,则在进行分类。希望这能有所帮助。
https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35
这里还有一个有趣的分析: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/