主成分分析与特征去除

3

我对机器学习还很陌生,刚刚接触到主成分分析作为一种降维方法。我不理解的是,在什么情况下PCA比仅删除模型中的某些特征更好?如果目标是获得低维数据,为什么我们不只是将相关的特征分组并保留每个组中的一个单一特征呢?


1
这是一个很好的问题,但更适合发布在[CrossValidated](http://stats.stackexchange.com),它是StackOverflow的统计/机器学习子网站。 - Matt Parker
1个回答

3

在IT技术中,特征降维(如PCA)和特征选择(你所描述的)有根本性的区别。关键的区别在于,特征降维(PCA)通过对所有原始维度的某些投影进行线性组合来将数据映射到较低的维度。因此,最终的数据嵌入包含了所有特征的信息。如果您执行特征选择,则会丢弃信息,完全丢失其中存在的任何内容。此外,PCA保证您保留给定数据方差的一部分。


据我所理解,使用PCA可以消除相关的维度,即线性相关。也就是说,将所有这些维度投影出来似乎并没有保留比仅删除它们更多的信息... 我有什么遗漏吗? - Botond
1
这与主成分分析无关。PCA 寻找保留大部分方差的线性投影,它不会“消除”任何维度。 - lejlot

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接