33得票2回答
BatchNormalization层关联参数数量为2048的原因是什么?

我有以下代码。x = keras.layers.Input(batch_shape = (None, 4096)) hidden = keras.layers.Dense(512, activation = 'relu')(x) hidden = keras.layers.BatchNorma...

17得票1回答
使用TensorFlow进行3D卷积的批归一化

我正在实现一个依赖于3D卷积的模型(用于类似于动作识别的任务),并想使用批量归一化(请参阅[Ioffe & Szegedy 2015])。我找不到任何关于3D卷积的重点教程,因此我在这里制作了一个短片段,希望与您一起审查。 下面的代码涉及TensorFlow r0.12,并明确实例化变量 -...

8得票1回答
批量归一化和使用SELU的自归一化神经网络之间的区别

我想了解批归一化和自归一化神经网络之间的区别。换句话说,SELU(缩放指数线性单元)是否可以替代批归一化,并如何实现? 此外,当我查看SELU激活值时,它们在[-1, 1]范围内。而批归一化并非如此,相反,在BN层之后(relu激活之前),它们的值大约为[-a,a],而不是[-1,1]。 ...

9得票2回答
model.eval() 和 model.train() 在 PyTorch 中影响哪些模块?

model.eval() 方法会修改某些模块(层),这些模块在训练和推理时具有不同的行为。其中一些模块(层)在文档中列出了部分示例,例如:Dropout、BatchNorm等等。请参考特定模块的文档以了解它们在训练/推理模式下的行为是否会受到影响。 是否有哪些模块会受到影响的详尽列表?

12得票3回答
使用同步均值和方差的多GPU BN层实现方法

我想知道在使用多个GPU进行训练时,实现批量归一化层并同步批量统计的可能方法。 Caffe 或许有一些可以实现的caffe变体,比如这里。但对于BN层,我的理解是它仍然只同步层的输出,而不是均值和方差。也许MPI可以同步均值和方差,但我认为MPI有点难以实现。 Torch 我看到一些评论这...

7得票1回答
CNN-LSTM的批量归一化层

假设我有一个这样的模型(这是一个用于时间序列预测的模型): ipt = Input((data.shape[1] ,data.shape[2])) # 1 x = Conv1D(filters = 10, kernel_size = 3, padding = 'causal', ...

7得票2回答
Tensorflow保存/恢复批量归一化

我在Tensorflow中使用批量标准化训练了一个模型。我想保存这个模型并在以后进行恢复使用。批量标准化是通过 def batch_norm(input, phase): return tf.layers.batch_normalization(input, training=pha...

21得票1回答
tf.layers.batch_normalization 大规模测试误差

我尝试使用批量归一化,我在一个简单的MNIST卷积神经网络上尝试使用tf.layers.batch_normalization。训练步骤中获得了高的准确率(>98%),但测试准确率非常低(我的代码# Input placeholders x = tf.placeholder(tf.float3...

15得票3回答
tf.layers.batch_normalization中"trainable"和"training"标志的意义

在tf.layers.batch_normalization中,“trainable”和“training”标志的重要性是什么?在训练和预测期间这两者有何不同?

15得票2回答
在caffe中如何使用“BatchNorm”层?

我对如何在我的模型中使用/插入"BatchNorm"层有点困惑。 我看到了几种不同的方法,例如: ResNets: "BatchNorm"+"Scale" (无参数共享) "BatchNorm"层紧随其后的是"Scale"层: layer { bottom: "res2a_bran...