PyTorch - backward() 函数应该在 epoch 循环还是 batch 循环中？

Question

PyTorch - backward() 函数应该在 epoch 循环还是 batch 循环中？

optimizationdeep-learningpytorchgradient

3

在使用Pytorch训练神经网络模型时，放置backward方法的位置是否有差别？例如下面哪一个是正确的？

跨批次计算梯度：

for e in range(epochs):
    for i in batches_list:
        out = nn_model(i)
        loss = loss_function(out, actual)
        loss_sum += loss.item()
        lstm.zero_grad()
        loss.backward()
        optimizer.step()
loss_list.append(loss_sum / num_train_obs)

在整个 epoch（一个训练周期）中计算梯度：

for e in range(epochs):
    for i in batches_list:
        out = nn_model(i)
        loss = loss_function(out, actual)
        loss_sum += loss.item()
    lstm.zero_grad()
    loss_sum.backward()
    optimizer.step()     
loss_list.append(loss_sum / num_train_obs)

- wwj123

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Umang Gupta · Accepted Answer

两种方法在程序上都是正确的。

第一种是批量梯度下降法，第二种是梯度下降法。在大多数问题中我们想要使用批量梯度下降法，所以第一种方法是正确的做法。它也可能训练更快。

如果你想要使用梯度下降法，可以使用第二种方法（但当你能使用批量梯度下降法时，很少需要使用GD）。然而，在GD中，你不会在每个批次清除图形（.zero_grad只被调用一次），这可能会导致内存溢出。