交叉熵损失波动的原因是什么?

3
我正在使用Soft Max算法处理CIFAR10数据集,关于交叉熵损失图表我有一些问题。我已经成功地将算法的准确率提高到了40%,所以准确率在不断提高。让人困惑的是如何解释交叉熵图表的结果,因为它与我在网上看到的其他类似问题的图表不太相似。想知道是否有人能够解释如何解释以下图表。在y轴上是损失,在x轴上是批次号。这两个图表分别是批量大小为1和100时的情况。
批量大小为1: Batch size 1 批量大小为100: Batch size 100
1个回答

1

这些波动的原因:

一个(小)批次只是CIFAR-10的一小部分。有时您会选择简单的例子,有时会选择困难的例子。或者可能看似容易的例子在模型调整到之前的批次后变得困难了。毕竟,它被称为随机梯度下降。请参见例如此处的讨论。

解释这些图表:

批量大小100:明显正在改善 :-) 我建议您对批次中的交叉熵取平均值,而不是将它们相加。

批量大小1:前大约40k步似乎有一些改善。然后可能只是振荡。您需要安排学习速率

其他相关要点:

Softmax不是一个算法,而是一个函数,它将任意值的向量转换为非负且总和为1的向量,因此可以解释为概率。
这些图表非常笨拙。尝试使用小点大小的散点图。
绘制准确性和交叉熵(在不同比例尺上,具有较粗的时间分辨率)以了解它们之间的关系。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接