主成分分析，需要选择多少个成分？

Question

主成分分析，需要选择多少个成分？

5

我不太理解PCA的一个点。PCA会返回每个特征方向上的最大方差吗？也就是说，它将为原始空间中的每个特征返回一个分量，并且只有前k个分量将用作新子空间的轴？如果我在50维中，其中49个特征具有强烈的方差，那么我可以直接转到49维空间吗？当然，我用通俗易懂的语言，没有正式或技术性的术语。

谢谢。

- rollotommasi

是的，但我的意思是，如果我们看一下协方差矩阵算法，返回的特征向量和特征值的数量是N，但其中只有k个作为最终维度返回。那个N是什么？应该是我们的数据矩阵X的列数...是吗？编辑：因此，在2维中返回2个组件，因为特征数是2。 - rollotommasi

1

输入特征使用 PCA 进行分析，以发现所有顶部正交动态，这些动态明确不是从输入特征进行一对一映射的... 因此，您的 50D 输入特征可能会被降至只有 3 个维度...通常，没有一个输入特征纯粹只是 PCA 输出维度之一... 想象一把铅笔扔在地上... 在平坦的 2D 表面上，您只有两个可能的维度，所以所有这些铅笔经过 PCA 处理后将仅表示为 X 和 Y 所代表的这两个向量...每个 PCA 输出都是正交的-独立于其他输出。 - Scott Stensland

这里有一个确认，每个特征都有一个组件，但是 Pca 允许使用特征值优先考虑它们！https://deeplearning4j.org/eigenvector#covariance - rollotommasi

为了真正理解PCA，我建议你避免只是将数据扔进某个库函数中...相反，要动手写自己的PCA算法...当然，在生产阶段可以使用别人的库，但在学习阶段不要这样做...PCA算法并不神奇，你可以用几页代码自己实现。 - Scott Stensland

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- stackoverflowuser2010 · Accepted Answer

如果您的原始数据有50个维度，那么PCA将返回50个主成分。您需要选择一个子集k，该子集可以解释最多的方差，通常至少为90%的方差。您使用的PCA软件通常会计算每个主成分解释的方差量，因此只需累加方差并选择前k个即可达到总方差的90％。参见这个PCA教程：PCA tutorial：

一般来说，我们希望选择最小的K，使得解释总方差的85％至95％（等价于0.85到0.99），这些值是基于PCA最佳实践得出的。

当我们说PCA可以减少维度时，我们的意思是PCA可以计算主成分，用户可以选择最小数量的K来解释0.95的方差。如果K相对于原始特征数D较小，则结果会令人满意。