Rapidminer：解释决策树参数

Question

Rapidminer：解释决策树参数

3

我非常新于RapidMiner和数据挖掘，但我已经尝试过对RapidMiner决策树参数的所有含义进行了初步的搜索，但是没有找到什么有用的信息。我知道什么是叶节点和节点，并且正在努力理解一些参数，但是非常感谢您能分享任何相关知识。例如：这些参数真正起到了什么作用？ - 准则 - 分裂最小大小 - 叶子最小大小 - 最小获益 - 最大深度 - 置信度

此外，在不使用优化的情况下，是否试错法是获得最佳预测的最好方式？谢谢， S

- HammockKing

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ahoffer · Accepted Answer

我喜欢使用RAPIDMINER操作符参考手册。这是一个PDF文件，可以在此处获取: http://rapidminer.com/documentation/ 该文档中的信息比应用程序本身提供的信息更好。例如: ...当前子树中的实例或示例少于某个特定数量。这可以通过使用最小分割大小参数进行调整。 假设您的标签是“蓝色”，“红色”和“绿色”。您的决策树有一个节点，其中包含2个“绿色”和1个“蓝色”的示例。如果最小分割大小为4，则决策树不会创建新分支，因为节点中只有三个示例。它将接受这样一个事实，即使答案并不完美，它也将把该节点声明为将示例分类为所有“绿色”的叶子节点。 最小叶节点大小类似。决策树中每个分支都只包含一个样本是没有什么用的，即使它可能提供最准确的分类结果。因此，您可以设置树中由叶节点分类的最小样本数。一个好的值取决于您的数据集和需求。运行决策树，如果有太多只有少量样本的叶节点，则增加该参数的值。

判定标准和最小增益有点复杂。判定标准是RapdMinder用来判断决策树及其节点好坏的算法。有几种策略，我并不了解它们的工作原理。判定标准是RapidMiner用来决定是否在节点下创建子树或将节点声明为叶节点的一项指标。它还应控制子树从子树根节点延伸的分支数。

决策树还有更多选项，每种决策树都可以有不同的参数。通过阅读参数说明、假设更改参数会发生什么，然后创建新的决策树来检验自己的假设是否正确，可以了解更多信息。实验并玩得开心！