线性回归与随机森林性能准确度的比较

6
如果数据集包含分类变量和连续变量,决策树比线性回归更好,因为树可以根据分类变量准确地划分数据。有没有任何情况下,线性回归表现比随机森林更好?
2个回答

4

肯定会出现线性回归优于随机森林的情况,但我认为更重要的是考虑模型的复杂度。

线性模型有很少的参数,而随机森林则有更多。这意味着随机森林比线性回归更容易过拟合。


我目前正在进行一项EDA,我的数据集中有20个特征和8000个观测值。在这20个特征中,我发现有5个特征与响应变量密切相关。我使用了普通最小二乘法,并获得了调整后的R平方值为0.95。请问在这种情况下,随机森林是否比线性回归表现更好? - Sourav Saha
1
@SouravSaha 这是一个你应该通过实验找到答案的问题。在我看来,应该先尝试简单模型,而更复杂的模型应该根据它们相对于简单模型的表现来评估。所以,我的意思是,两种都试试吧。 - kutschkem
完全同意 @kutschkem 的观点,找到答案的唯一方法就是通过实验!机器学习是一个经验主义领域,在这里很少有固定的规则可以让我们断言方法x总是比方法y更好。 - willk

3
线性模型相对于基于树的模型的主要优势包括:
  • 它们可以进行外推(例如,如果标签在训练集中介于1-5之间,则基于树的模型永远不会预测10,但线性模型会)
  • 由于外推,可用于异常检测
  • 可解释性(是的,基于树的模型具有特征重要性,但它只是一个代理,线性模型中的权重更好)
  • 需要较少的数据即可获得良好的结果
  • 具有强大的在线学习实现(如Vowpal Wabbit),这对于处理具有许多特征的巨大数据集(例如文本)至关重要

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接