训练集和测试集在构建决策树并使用其分类中的作用

Question

3

我已经在Weka上工作了几个月了。目前，我正在奥斯特福尔德大学修习机器学习课程。我需要一种更好的方法来构建基于分离训练和测试集的决策树。如果有人能提出好主意，那将是非常大的帮助。提前感谢。

-Neo

- Neo182

比什么更好？你正在使用哪种方法？你到目前为止做了什么？ - Terrance

我使用过C5.0工具。在其中指定训练和测试数据集非常容易。但是在Weka中，我没有找到这样的选项。 - Neo182

2个回答

0

实际上我正在寻找像这样的东西 - http://weka.wikispaces.com/Saving+and+loading+models 以保存模型、加载它并在训练集中使用它。这正是我一直在寻找的。希望对那些有类似问题的人有所帮助。祝好！-Neo182

- Neo182

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- doug · Accepted Answer

您可能希望了解更具体的内容，但总的来说：

您可以使用训练集构建决策树，并使用测试集评估该树的性能。换句话说，在测试数据上，您调用一个通常命名为classify的函数，传入新构建的树和要分类的数据点（在您的测试集中）。

此函数返回您的树中属于该数据点的叶子（终端）节点 - 假设该叶子的内容是同质的（由单个类别的数据填充，而不是混合的），则实际上已将类别标签分配给该数据点。当您将树分配的类别标签与数据点的实际类别标签进行比较，并重复测试集中所有实例时，就有了一个评估树性能的度量指标。

一个经验法则：对数据进行洗牌，然后将90％分配给训练集，将其余的10％分配给测试集。