早停止应该使用哪些参数？

Question

早停止应该使用哪些参数？

pythonkerasdeep-learningconv-neural-network

117

我正在使用Keras为我的项目训练神经网络。Keras提供了早停函数。请问有哪些参数需要注意，以避免在使用早停时过拟合神经网络？

- AizuddinAzman

2个回答

2

这是另一个项目AutoKeras（https://autokeras.com/）中EarlyStopping的一个例子，该项目是一个自动化机器学习（AutoML）库。该库设置了两个EarlyStopping参数：patience=10和min_delta=1e-4。

https://github.com/keras-team/autokeras/blob/5e233956f32fddcf7a6f72a164048767a0021b9a/autokeras/engine/tuner.py#L170

默认监测AutoKeras和Keras的数量是val_loss：

https://github.com/keras-team/keras/blob/cb306b4cc446675271e5b15b4a7197efd3b60c34/keras/callbacks.py#L1748 https://autokeras.com/image_classifier/

- cannin

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- umutto · Accepted Answer

早期停止基本上是指在损失开始增加（或者换句话说验证准确性开始下降）时停止训练。根据文档，它的使用方法如下：

keras.callbacks.EarlyStopping(monitor='val_loss',
                              min_delta=0,
                              patience=0,
                              verbose=0, mode='auto')

对于防止过拟合，具体取决于你的实现方式（问题、批处理大小等），但通常会使用以下方法：

通过将 monitor 参数设置为 'val_loss'，监控验证集损失（需要使用交叉验证或至少使用训练/测试集）。
min_delta 是一个阈值，用于量化某个时期的损失是否有所改善。如果损失的差异小于 min_delta，则会被视为未改善。最好将其保留为0，因为我们关心的是损失何时变得更糟。
patience 参数表示当您的损失开始增加（停止改善）时，在停止之前经过的时期数。这取决于您的实现方式，如果您使用非常小的批次或大学习速率，则损失会发生波动（准确性会更加嘈杂），因此最好设置较大的 patience 参数。如果您使用大批次和小学习速率，则损失会更平滑，因此可以使用较小的 patience 参数。无论哪种方式，我都将其设置为2，以便给模型更多机会。
verbose 决定要打印什么内容，请将其保留为默认值（0）。
mode 参数取决于您监视数量的方向（它应该是递减还是递增），由于我们监视损失，因此可以使用 min。但是让keras为我们处理设置为 auto。

因此，我会使用这样的方法，并通过在有和没有早期停止的情况下绘制错误损失来进行实验。

keras.callbacks.EarlyStopping(monitor='val_loss',
                              min_delta=0,
                              patience=2,
                              verbose=0, mode='auto')

针对可能存在的回调函数工作机理的歧义，我会尝试做出更详细的解释。一旦您在模型上调用了fit(... callbacks=[es])，Keras就会调用给定回调对象中预定的函数。这些函数可以被调用on_train_begin、on_train_end、on_epoch_begin、on_epoch_end和on_batch_begin、on_batch_end。提前停止回调会在每个 epoch 结束时被调用，将最佳监控值与当前值进行比较，如果满足条件（自最佳监控值观察以来经过了多少个 epoch 和是否超过了耐心参数，上一个值的差异是否大于 min_delta等），则停止训练。

正如@BrentFaust在评论中指出的那样，模型的训练将继续直到提前停止条件被满足或者epochs参数（默认为10）在fit()中得到满足。设置提前停止回调不会使模型超出其epochs参数的训练次数。因此，使用更大的epochs值调用fit()函数将更受益于提前停止回调。