我最近在研究CNN,想知道softmax公式中的温度参数是什么作用?为什么要使用高温度来看到更软的概率分布?Softmax Formula
我最近在研究CNN,想知道softmax公式中的温度参数是什么作用?为什么要使用高温度来看到更软的概率分布?Softmax Formula
=exp(/)/ ∑exp(/)
,其中 是温度参数。[0.01,0.01,0.98]
b)样本“软”softmax概率:[0.2,0.2,0.6]
'a'是更“硬”的分布。您的模型非常自信地对其预测。但是,在许多情况下,您不希望模型这样做。例如,如果您正在使用RNN生成文本,您基本上是从输出分布中进行采样,并选择采样的单词作为输出令牌(和下一个输入)。如果您的模型非常自信,它可能会产生非常重复和无聊的文本。您希望它生成更多样化的文本,而它不会生成这种文本,因为在采样过程正在进行时,大部分概率质量将集中在少数令牌中,因此您的模型会一遍又一遍地选择一组单词。为了使其他单词也有机会被采样,您可以插入温度变量并生成更多样化的文本。exp(6) ~ 403
exp(3) ~ 20
exp(6/1.5) ~ 54
exp(3/1.5) ~ 7.4
您可以看到,在百分比方面,术语越大,当温度用于惩罚它时,它就会缩小得越多。当较大的对数缩小超过较小的对数时,更多的概率质量(由softmax计算)将被分配给较小的对数。