训练集和测试集在构建决策树并使用其分类中的作用

3

我已经在Weka上工作了几个月了。 目前,我正在奥斯特福尔德大学修习机器学习课程。 我需要一种更好的方法来构建基于分离训练和测试集的决策树。 如果有人能提出好主意,那将是非常大的帮助。 提前感谢。

-Neo


比什么更好?你正在使用哪种方法?你到目前为止做了什么? - Terrance
我使用过C5.0工具。在其中指定训练和测试数据集非常容易。但是在Weka中,我没有找到这样的选项。 - Neo182
2个回答

4
您可能希望了解更具体的内容,但总的来说:
您可以使用训练集构建决策树,并使用测试集评估该树的性能。换句话说,在测试数据上,您调用一个通常命名为classify的函数,传入新构建的树和要分类的数据点(在您的测试集中)。
此函数返回您的树中属于该数据点的叶子(终端)节点 - 假设该叶子的内容是同质的(由单个类别的数据填充,而不是混合的),则实际上已将类别标签分配给该数据点。当您将树分配的类别标签与数据点的实际类别标签进行比较,并重复测试集中所有实例时,就有了一个评估树性能的度量指标。
一个经验法则:对数据进行洗牌,然后将90%分配给训练集,将其余的10%分配给测试集。

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接