我不熟悉深度学习,所以这可能是一个初学者问题。在我看来,多层感知器中的softmax函数负责对每个类别进行规范化和分配概率。如果是这样,为什么我们不使用简单的规范化呢?
假设我们得到了一个向量x = (10 3 2 1),应用softmax函数,输出将是y = (0.9986 0.0009 0.0003 0.0001)。
应用简单的规范化(将每个元素除以sum(16)),输出将是y = (0.625 0.1875 0.125 0.166)。
看起来简单的规范化也可以分配概率。那么,使用输出层上的softmax函数有什么优点?
假设我们得到了一个向量x = (10 3 2 1),应用softmax函数,输出将是y = (0.9986 0.0009 0.0003 0.0001)。
应用简单的规范化(将每个元素除以sum(16)),输出将是y = (0.625 0.1875 0.125 0.166)。
看起来简单的规范化也可以分配概率。那么,使用输出层上的softmax函数有什么优点?