修剪决策树

3

当训练集中的样本数量太少时,如何修剪使用ID3构建的决策树。

我不能将其分为训练、验证和测试集,因此这是不可能的。

是否有任何可能使用的统计方法或类似方法?


请查看以下链接 https://dev59.com/zHE95IYBdhLWcg3wbtXO?rq=1 - James LT
1个回答

4
当数据量较少时,交叉验证可用于训练和修剪数据集。这个想法非常简单。将数据分成N组,使用其中N-1组训练决策树,最后一组用作修剪测试集。然后选择其中一组离开,重复上述步骤,直到所有组都被排除。这意味着您将建立N棵决策树。使用这些N棵决策树计算出树的最佳大小,然后使用该计算在完整的数据集上进行训练以修剪该树。这比我在此处有效地描述的要复杂,但是这里有一篇关于如何将交叉验证适应于ID3的文章。 决策树交叉验证

已经进行了大量的研究以确定交叉验证的适当分割方式,发现N=10在给定的额外处理时间内可以获得最佳结果。交叉验证会大幅增加计算时间(N倍),但当数据量较小时,它可以克服样本数量不足的问题。而且由于数据量不大,使用交叉验证在计算上并不那么糟糕。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接