使用Keras和LSTM/GRU单元进行Dropout

Question

22

在Keras中，您可以像这样指定一个dropout层：

model.add(Dropout(0.5))

但是使用GRU单元，你可以在构造函数中指定dropout参数：

model.add(GRU(units=512,
        return_sequences=True,
        dropout=0.5,
        input_shape=(None, features_size,)))

有什么区别？一个比另一个更好吗？

在Keras的文档中，它将其作为单独的dropout层添加（参见“使用LSTM进行序列分类”）

- BigBadMe

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Daniel Möller · Accepted Answer

循环层一遍又一遍地执行相同的重复操作。

在每个时间步中，它有两个输入：

请注意，输入和输出的维度可能不匹配，这意味着“您的输入”维度将不匹配“循环输入（上一步/状态）”维度。

然后，在每个循环时间步中，有两个具有两个不同内核的操作：

因此，keras在循环层中还使用了两个丢失操作。（将应用于每个步骤的丢失）

因此，实际上RNN层中有两个丢失参数：

您可以在源代码中看到这个描述已编码为GRUCell和LSTMCell。

什么是正确的？

这取决于创造力。

你可以使用一个Dropout(...)层，这并不是“错误”的，但它可能会丢弃“时间步”！（除非你正确设置noise_shape或使用SpatialDropout1D，目前还没有文档说明）

也许你想要它，也许你不想要。如果你在循环层中使用参数，则只会对其他维度应用dropout，而不会丢失任何一步。这对于循环层似乎是健康的，除非你希望你的网络学习如何处理包含间隙的序列（这最后一句话是一种推测）。

此外，使用dropout参数，你将真正地丢弃核的部分，因为操作在每个步骤中都被丢弃了，而使用单独的层将使你的RNN在内部执行非丢弃操作，因为你的dropout仅影响最终输出。