为什么在主成分分析中要最大化方差？

Question

21

我正在尝试学习PCA，看到其目标是最大化方差，但不太明白为什么要这样做。如果有其他相关主题的解释，将会很有帮助。

- karthik A

如果你将其视为最大化“解释的”方差，我认为这可能会更容易理解。 - naught101

4个回答

10

注意，主成分分析并没有实际增加数据的方差。相反，它将数据集旋转到使其最广泛扩展的方向与主轴对齐的方式中。这使您能够删除那些数据几乎呈平面的维度，从而减少数据的维度，同时尽可能地保持点之间的方差（或扩展）接近原始状态。

- Don Reba

你能提供一个参考资料吗？该资料可以从旋转角度的角度来解释PCA吗？ - Atilla Ozgur

@AtillaOzgur PCA 生成一个正交变换矩阵。正交矩阵是旋转和反射的组合。 - Don Reba

6

最大化组件向量的差异就是在最大化这些向量的“独特性”。这样，你的向量之间就尽可能地远离彼此。因此，如果你只使用前N个组件向量，则用高度变化的向量比使用相似向量捕获更多的空间。想一想主成分实际上是什么意思。

例如，在3D空间中有两条正交的线的情况下，您可以使用这些正交线更完整地捕获环境，而不是使用平行（或几乎平行）的2条线。当应用于非常少的向量来处理非常高维度的状态时，保持向量之间的这种关系变得更加重要。在线性代数的意义上，您希望通过PCA产生独立的行，否则其中一些行将是冗余的。

请参阅普林斯顿大学计算机科学系的PDF以获得基本解释。

- Pyrce

2

最大方差基本上是设置这些占据数据点最大范围的轴，为什么呢？因为这些轴的方向才是真正重要的，它们可以解释相关性，后来我们将沿着这些轴压缩/投影点以消除一些维度。

- Mr-Programs

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- LSerni · Accepted Answer

方差是衡量数据“变异性”的一种指标。可能的组件数量是无限的（实际上，经过数字化后，最多等于矩阵的秩，正如@jazibjamil所指出的那样），因此您需要在构建的有限集的每个组件中“挤压”最多的信息。

如果夸张一下，您选择了一个“单一”的主要成分，您希望它能尽可能地解释最大的可变性：因此搜索最大方差，使得该组件从数据集中收集最多的“独特性”。