线性回归与随机森林性能准确度的比较

Question

6

如果数据集包含分类变量和连续变量，决策树比线性回归更好，因为树可以根据分类变量准确地划分数据。有没有任何情况下，线性回归表现比随机森林更好？

- Sourav Saha

2个回答

3

线性模型相对于基于树的模型的主要优势包括：

- user2564741

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- kutschkem · Accepted Answer

4

肯定会出现线性回归优于随机森林的情况，但我认为更重要的是考虑模型的复杂度。

线性模型有很少的参数，而随机森林则有更多。这意味着随机森林比线性回归更容易过拟合。

- kutschkem

我目前正在进行一项EDA，我的数据集中有20个特征和8000个观测值。在这20个特征中，我发现有5个特征与响应变量密切相关。我使用了普通最小二乘法，并获得了调整后的R平方值为0.95。请问在这种情况下，随机森林是否比线性回归表现更好？ - Sourav Saha

1

@SouravSaha 这是一个你应该通过实验找到答案的问题。在我看来，应该先尝试简单模型，而更复杂的模型应该根据它们相对于简单模型的表现来评估。所以，我的意思是，两种都试试吧。 - kutschkem

完全同意 @kutschkem 的观点，找到答案的唯一方法就是通过实验！机器学习是一个经验主义领域，在这里很少有固定的规则可以让我们断言方法x总是比方法y更好。 - willk