最近我在阅读Wavenet和PixelCNN的论文,两篇中都提到使用门控激活函数比ReLU更有效。但在这两种情况下,它们都没有解释为什么会这样。
我在其他平台上询问过(例如r/machinelearning),但目前还没有得到任何回复。也许他们只是尝试了这种替换方法,结果得到了有利的结果?
参考函数: y = tanh(Wk,f ∗ x) . σ(Wk,g ∗ x)
卷积的S型函数和双曲正切的逐元素乘积。
我在其他平台上询问过(例如r/machinelearning),但目前还没有得到任何回复。也许他们只是尝试了这种替换方法,结果得到了有利的结果?
参考函数: y = tanh(Wk,f ∗ x) . σ(Wk,g ∗ x)
卷积的S型函数和双曲正切的逐元素乘积。