Rapidminer:解释决策树参数

3
我非常新于RapidMiner和数据挖掘,但我已经尝试过对RapidMiner决策树参数的所有含义进行了初步的搜索,但是没有找到什么有用的信息。我知道什么是叶节点和节点,并且正在努力理解一些参数,但是非常感谢您能分享任何相关知识。例如:这些参数真正起到了什么作用? - 准则 - 分裂最小大小 - 叶子最小大小 - 最小获益 - 最大深度 - 置信度
此外,在不使用优化的情况下,是否试错法是获得最佳预测的最好方式? 谢谢, S
1个回答

1
我喜欢使用RAPIDMINER操作符参考手册。这是一个PDF文件,可以在此处获取: http://rapidminer.com/documentation/ 该文档中的信息比应用程序本身提供的信息更好。例如: ...当前子树中的实例或示例少于某个特定数量。这可以通过使用最小分割大小参数进行调整。 假设您的标签是“蓝色”,“红色”和“绿色”。您的决策树有一个节点,其中包含2个“绿色”和1个“蓝色”的示例。如果最小分割大小为4,则决策树不会创建新分支,因为节点中只有三个示例。它将接受这样一个事实,即使答案并不完美,它也将把该节点声明为将示例分类为所有“绿色”的叶子节点。 最小叶节点大小类似。决策树中每个分支都只包含一个样本是没有什么用的,即使它可能提供最准确的分类结果。因此,您可以设置树中由叶节点分类的最小样本数。一个好的值取决于您的数据集和需求。运行决策树,如果有太多只有少量样本的叶节点,则增加该参数的值。

判定标准最小增益有点复杂。判定标准是RapdMinder用来判断决策树及其节点好坏的算法。有几种策略,我并不了解它们的工作原理。判定标准是RapidMiner用来决定是否在节点下创建子树或将节点声明为叶节点的一项指标。它还应控制子树从子树根节点延伸的分支数。
决策树还有更多选项,每种决策树都可以有不同的参数。通过阅读参数说明、假设更改参数会发生什么,然后创建新的决策树来检验自己的假设是否正确,可以了解更多信息。实验并玩得开心!


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接