决策树(如C4.5)被视为非参数学习吗?

9

我对机器学习还比较新,正在努力将决策树归入整个事物的大局中。决策树(例如使用C4.5或ID3构建的决策树)被认为是参数化还是非参数化的?我猜想它们可能确实是参数化的,因为实值的决策分割点可以从某些特征值的分布中确定,例如平均值。然而,它们不具有非参数化的特性,即必须保留所有原始训练数据(就像kNN一样)。


请参考以下链接:https://sebastianraschka.com/faq/docs/parametric_vs_nonparametric.html - teddcp
2个回答

10
术语“参数化”是指定义数据分布的参数。由于决策树(例如C4.5)不对数据分布做出假设,因此它们是非参数化的。高斯最大似然分类(GMLC)是参数化的,因为它假定数据遵循多元高斯分布(类别由均值和协方差描述)。关于您最后一句话,保留训练数据(例如实例学习)并不适用于所有非参数化分类器。例如,人工神经网络(ANN)被认为是非参数化的,但它们不保留训练数据。

3
不需要进行分布假设。您可以按照连续属性的值对所有实例进行排序,然后在最大化信息增益的两个值之间进行拆分。这并未对数据的分布进行任何假设(即没有对数据进行正态或其他分布的假设)。 - bogatron
1
决策树仍将是一种非参数分类器。即使您可以使用参数模型(例如高斯分布)来选择潜在的分支,但树生成的最终决策面通常不会对应于类的高斯分布(既不隐式也不显式)。 - bogatron
5
这并不完全准确——在非正式的意义上,你的解释大体上是正确的,但非参数模型(与我认为你混淆的非参数检验不太相同)的实际含义是,参数数量和模型结构是由数据决定而不是先验设定的。请参阅贝叶斯非参数统计学,其中有一个由数据确定参数数量的模型系列,但假定数据遵循某种分布。 - Ben Allison
2
不好意思,我并不是想要说那个。因为树的结构是由训练数据决定的,所以它们是非参数化的。然而,就像我之前提到的那样,这并不像参数化概率分布=参数模型那么简单。 - Ben Allison
1
因此,即使您构建了一个对输入数据分布没有任何假设的简单逻辑回归模型,它仍然是一个参数模型。 - GuSuku
显示剩余5条评论

5
术语“参数化”是指模型的参数数量与数据之间的关系。
如果参数数量固定,则模型为参数化的。
如果参数数量随着数据而增长,则模型为非参数化的。
决策树是非参数化的,但如果通过限制其大小来进行正则化,则参数数量也被限制,并且可以被视为固定。因此,对于决策树而言,情况并不十分明显。
KNN绝对是非参数化的,因为参数集就是数据集:要预测新的数据点,KNN模型需要访问训练数据点以及除超参数K外的任何其他信息。

1
KNN是非参数的。 - efthimio
"...参数是KNN中的数据"这句话是什么意思?希望您能稍微详细解释一下。 - StoryMay
@ChangheeKang,在线性回归中,我们使用学习到的参数进行预测。在KNN模型中,我们使用最近的N个数据点进行预测。这就是所谓的参数即数据的含义。与其使用从训练数据中提取/学习到的参数,我们直接使用训练数据进行预测。希望这能帮到你。 - Max

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接