随机森林表现比其他方法更好

Question

3

在评估SVM、RF和DT（max_depth = 3）的性能时，我发现RF模型的结果非常优秀。所建模型的数据是真实世界的数据。由于数据集不平衡，它们都使用分层交叉验证进行评估。

对于之前看到的4个不同类别，我得到了这些精确度、召回率和F1得分。

原始数据集包含以下4个类别的values_counts：

1. 饲料故障-（Diff. P-set/P-actual）：4,098条数据样本 2. 饲料故障-（饲料安全电路故障）：383条数据样本 3. 发电机加热：228,668条数据样本 4. 其他：51,966,851个样本

RF为何比SVM和DT表现更好呢？

提前感谢！

- meerkat

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- LetiP · Accepted Answer

这些结果完全是合理的！随机森林（Random Forest）比决策树更强大，因为它基本上是决策树的集成。在机器学习中，集成模型（多模型组合）在处理未知数据时通常具有很强的泛化能力。当决策树或支持向量机（SVM）过拟合时，随机森林通常表现相对良好，因为内部许多看到不同特征集的DTs为结果投票。