在训练多层感知机时,“epoch”和“iteration”有什么区别?
在下面的TensorFlow函数中,我们必须提供最后一层人工神经元的激活。这一点我理解。但是为什么它被称为logits呢?难道它不是一个数学函数吗?loss_function = tf.nn.softmax_cross_entropy_with_logits( logits = la...
在tensorflow的tf.nn.max_pool中,“SAME”和“VALID”填充有什么区别? 我认为,“VALID”表示在进行最大池化时,边缘外部不会进行零填充。 根据用于深度学习的卷积算术指南,它说池操作中不会进行填充,即只需使用tensorflow的“VALID”。 但是,在t...
对于任何Keras层(Layer类),有人能解释一下如何理解input_shape、units、dim等之间的区别吗? 例如,文档说units指定层的输出形状。 在下面的神经网络图像中,“hidden layer1”有4个单元。这是否直接对应于Layer对象的units属性?还是Keras...
我正在尝试理解LSTMs的概念,并在Christopher Olah的这篇文章中找到了一些线索,该文章是用Keras实现的。我正在遵循Jason Brownlee撰写的Keras教程博客。我主要困惑的是: 将数据序列重新塑造为[samples, time steps, features] ...
我该如何在PyTorch中保存已训练的模型? 我已经阅读到: torch.save()/torch.load() 用于保存/加载可序列化对象。 model.state_dict()/model.load_state_dict() 用于保存/加载模型状态。
在训练期间为什么需要调用zero_grad()?| zero_grad(self) | Sets gradients of all model parameters to zero.
当我使用Theano或Tensorflow训练神经网络时,它们会在每个epoch报告一个名为“loss”的变量。 我应该如何解释这个变量?更高的损失值是好还是坏,或者它对神经网络最终的性能(准确性)意味着什么?
如何通过He或Xavier初始化来初始化网络的权重和偏置?
何时应该使用.eval()?我知道这个函数可以让我“评估模型”。但我如何在训练时将其关闭? 下面是一个使用.eval()的示例代码。