为什么在主成分分析中要最大化方差?

21

我正在尝试学习PCA,看到其目标是最大化方差,但不太明白为什么要这样做。如果有其他相关主题的解释,将会很有帮助。


如果你将其视为最大化“解释的”方差,我认为这可能会更容易理解。 - naught101
4个回答

19

方差是衡量数据“变异性”的一种指标。可能的组件数量是无限的(实际上,经过数字化后,最多等于矩阵的秩,正如@jazibjamil所指出的那样),因此您需要在构建的有限集的每个组件中“挤压”最多的信息。

如果夸张一下,您选择了一个“单一”的主要成分,您希望它能尽可能地解释最大的可变性:因此搜索最大方差,使得该组件从数据集中收集最多的“独特性”。


1
这似乎是一个很好的答案,只需要更正一点,矩阵的主成分数量最多等于该矩阵的秩,而不是“潜在无限”。 - jazib jamil
为了找到数据集的主成分分析(PCA),我们需要首先在图表上绘制它,如果数据集有两个特征,我们可以将其绘制为2D图,然后计算PCA,但是如果数据有4个特征,我们该如何绘制4D图以计算其PCA? - Ahtisham

10

注意,主成分分析并没有实际增加数据的方差。相反,它将数据集旋转到使其最广泛扩展的方向与主轴对齐的方式中。这使您能够删除那些数据几乎呈平面的维度,从而减少数据的维度,同时尽可能地保持点之间的方差(或扩展)接近原始状态。


你能提供一个参考资料吗?该资料可以从旋转角度的角度来解释PCA吗? - Atilla Ozgur
@AtillaOzgur PCA 生成一个正交变换矩阵。正交矩阵是旋转和反射的组合。 - Don Reba

6
最大化组件向量的差异就是在最大化这些向量的“独特性”。这样,你的向量之间就尽可能地远离彼此。因此,如果你只使用前N个组件向量,则用高度变化的向量比使用相似向量捕获更多的空间。想一想主成分实际上是什么意思。
例如,在3D空间中有两条正交的线的情况下,您可以使用这些正交线更完整地捕获环境,而不是使用平行(或几乎平行)的2条线。当应用于非常少的向量来处理非常高维度的状态时,保持向量之间的这种关系变得更加重要。在线性代数的意义上,您希望通过PCA产生独立的行,否则其中一些行将是冗余的。
请参阅普林斯顿大学计算机科学系的PDF以获得基本解释。

2

最大方差 最大方差基本上是设置这些占据数据点最大范围的轴,为什么呢?因为这些轴的方向才是真正重要的,它们可以解释相关性,后来我们将沿着这些轴压缩/投影点以消除一些维度。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接