如何在Tensorflow更新梯度时检查NaN？

Question

如何在Tensorflow更新梯度时检查NaN？

machine-learningtensorflowdeep-learningmathematical-optimization

5

大家好，

当您使用大量样本来训练一个大模型时，有些样本可能会导致梯度为NaN，从而导致参数更新失败。

我想找出这些样本，并且同时不希望这批样本的梯度用于更新模型参数，因为这有可能导致模型参数变成NaN。

有没有什么好的方法解决这个问题呢？

我的代码如下：

    # Create an optimizer.
    params = tf.trainable_variables()
    opt = tf.train.AdamOptimizer(1e-3)
    gradients = tf.gradients(self.loss, params)

    max_gradient_norm = 10
    clipped_gradients, self.gradient_norms = tf.clip_by_global_norm(gradients,
                                                     max_gradient_norm)

    self.optimizer = opt.apply_gradients(zip(clipped_gradients, params))

- Issac

2个回答

0

你可以使用tf.is_nan与tf.cond结合起来，仅在损失不是NaN时执行代码的其余部分。

- Mr_and_Mrs_D

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- yuefengz · Accepted Answer

您可以通过 tf.check_numerics 检查梯度是否为 NaN：

grad_check = tf.check_numerics(clipped_gradients)
with tf.control_dependencies([grad_check]):
  self.optimizer = opt.apply_gradients(zip(clipped_gradients, params))

grad_check 会在裁剪梯度为 NaN 或无穷大时抛出 InvalidArgument 异常。

tf.control_dependencies 确保在应用梯度之前先评估 grad_check。

还可以查看 tf.add_check_numerics_ops()。