我在阅读关于交叉验证的内容,了解到它用于选择最佳模型和估计参数。但我并不真正理解其含义。
假设我建立了一个线性回归模型,并进行了10折交叉验证,我认为这10个模型将具有不同的系数值,那么从这10个不同的模型中,我应该选择哪一个作为我的最终模型或参数估计呢?
或者我们只使用交叉验证来查找平均误差(在我们的情况下是10个模型的平均值),并与另一个模型进行比较吗?
我在阅读关于交叉验证的内容,了解到它用于选择最佳模型和估计参数。但我并不真正理解其含义。
假设我建立了一个线性回归模型,并进行了10折交叉验证,我认为这10个模型将具有不同的系数值,那么从这10个不同的模型中,我应该选择哪一个作为我的最终模型或参数估计呢?
或者我们只使用交叉验证来查找平均误差(在我们的情况下是10个模型的平均值),并与另一个模型进行比较吗?
你可能将网格搜索和交叉验证混淆了。交叉验证的基本思想是检查模型在实际应用中的表现如何。因此我们尝试随机地将数据以不同比例分割,然后验证其性能。需要注意的是,在整个交叉验证过程中,模型的参数保持不变。
在网格搜索中,我们尝试找到最佳参数组合,以便在特定的数据拆分(例如70%训练和30%测试)上获得最佳结果。因此,在这种情况下,对于相同模型的不同组合,数据集保持不变。
了解更多关于交叉验证的内容。
交叉验证或 CV 允许我们比较不同的机器学习方法,并了解它们在实践中的表现。
情景1(直接回答问题)
(从这些方法中,将为每种方法生成和评估不同的模型,并计算每种方法的平均指标,最佳平均指标将有助于选择方法)
情景2:
假设您有少量数据,并且想对数据进行训练、验证和测试。将这么少的数据分成三组会大大减少训练样本,结果将取决于训练和验证集对的选择。