如何决定使用线性回归模型还是非线性回归模型?

3

如何决定使用线性回归模型还是非线性回归模型?

我的目标是预测 Y。

在简单的 xy 数据集的情况下,我可以通过绘制散点图轻松确定应该使用哪个回归模型。

在多变量情况下,例如 x1、x2、...、xny。我如何决定使用哪个回归模型?也就是说,我将如何决定选择简单线性模型或二次、三次等非线性模型。

是否有任何技术、统计方法或图形绘图来推断和决定应该使用哪个回归模型?请给予建议。

1个回答

1
这是一个相当复杂的问题。
首先从视觉上开始:如果数据符合正态分布,并满足经典线性模型的条件,则使用线性模型。我通常会先制作散点图矩阵来观察关系。如果明显关系是非线性的,则使用非线性模型。但是,很多时候,我会进行视觉检查,假设因素数量并不太多。例如,这将是一个非线性模型:

http://otter-rsch.com/admodel/cc1pic.3.gif

然而,如果您想使用数据挖掘(和计算方法),我建议从逐步回归开始。您需要首先设置模型评估标准:例如可能是R ^ 2。您可以从零开始逐步添加预测变量或其排列方式,直到您的模型评估标准“最大化”。但是,几乎始终会通过添加新的预测变量增加R ^ 2,这是一种过度拟合类型。
解决方案是将数据分为训练和测试。您应该基于训练制定模型,并在测试中评估平均误差。最佳模型将是在测试集上最小化平均误差的模型。
如果您的数据稀疏,请尝试将岭回归或套索回归纳入模型评估中。
同样,这是一个有点复杂的问题。答案也有点取决于您是构建描述性模型还是解释性模型。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接