在LSTM之前或之后使用Dropout层。有什么区别？

Question

在LSTM之前或之后使用Dropout层。有什么区别？

14

假设我们有一个用于时间序列预测的LSTM模型。此外，这是一个多变量情况，因此我们使用多个特征来训练模型。

ipt   = Input(shape = (shape[0], shape[1])
x     = Dropout(0.3)(ipt) ## Dropout before LSTM.
x     = CuDNNLSTM(10, return_sequences = False)(x)
out   = Dense(1, activation='relu')(x)

我们可以在LSTM之前（就像上面的代码）或在LSTM之后添加Dropout层。

如果我们在LSTM之前添加它，它是应用于时间步长（时间序列的不同滞后），还是不同的输入特征，还是两者都是？
如果我们在LSTM之后添加它，并且因为return_sequences是False，那么这里的dropout是做什么的？
LSTM中的dropout选项和在LSTM层之前的dropout层之间有什么区别吗？

- Eghbal

2个回答

4

你将Dropout和它的变体SpatialDropoutND（1D、2D或3D）混淆了。如果return_sequences=False，则只会得到最后一个时间步长的输出，因此在你的情况下大小为[batch，10]。Dropout将在第二个维度上随机丢弃值。不同之处在于，当LSTM产生序列时（例如，序列经过展开的LSTM并在进入下一单元之前丢弃一些特征），dropout是用于时间步骤的。 Dropout将随机丢弃元素（除批量尺寸外）。SpatialDropout1D将丢弃整个通道，在这种情况下，某些时间步长将被完全丢弃（在卷积情况下，可以使用SpatialDropout2D来丢弃通道，输入或沿网络）。请参阅documentation。

- Szymon Maszke

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Daniel Möller · Accepted Answer

默认情况下，Dropout 会创建一个由零和一组成的随机张量。没有模式，也没有特权轴。因此，您不能说正在丢弃特定的东西，只是在张量中随机选择坐标。（嗯，它会丢弃特征，但对于每个步骤和每个样本，它丢弃的特征都不同）。

如果需要，您可以使用 noise_shape 属性，它将定义随机张量的形状。然后可以选择是否要丢弃时间步、特征或样本，或者可能是其中的组合。

- 丢弃时间步: noise_shape = (1,steps,1) - 丢弃特征: noise_shape = (1,1, features) - 丢弃样本: noise_shape = (None, 1, 1) 还有一个 SpatialDropout1D 层，它自动使用 noise_shape = (input_shape[0], 1, input_shape[2])。这会对所有时间步骤丢弃相同的特征，但会单独处理每个样本（每个样本将丢弃不同组的特征）。

在 LSTM 之后，您有 shape = (None, 10)。因此，您可以像在任何全连接网络中一样使用 Dropout。它会针对每个样本丢弃不同的特征组。

将 dropout 作为 LSTM 的参数有很多差异。它会生成4个不同的 dropout 掩码，用于创建每个不同门的不同输入。（您可以查看 LSTMCell 代码来检查这个过程）。

此外，还有 recurrent_dropout 的选项，它将生成4个dropout掩码，但是应用于计算状态而不是输入，每个recurrent计算步骤。