我正在尝试学习PCA,看到其目标是最大化方差,但不太明白为什么要这样做。如果有其他相关主题的解释,将会很有帮助。
我正在尝试学习PCA,看到其目标是最大化方差,但不太明白为什么要这样做。如果有其他相关主题的解释,将会很有帮助。
方差是衡量数据“变异性”的一种指标。可能的组件数量是无限的(实际上,经过数字化后,最多等于矩阵的秩,正如@jazibjamil所指出的那样),因此您需要在构建的有限集的每个组件中“挤压”最多的信息。
如果夸张一下,您选择了一个“单一”的主要成分,您希望它能尽可能地解释最大的可变性:因此搜索最大方差,使得该组件从数据集中收集最多的“独特性”。
注意,主成分分析并没有实际增加数据的方差。相反,它将数据集旋转到使其最广泛扩展的方向与主轴对齐的方式中。这使您能够删除那些数据几乎呈平面的维度,从而减少数据的维度,同时尽可能地保持点之间的方差(或扩展)接近原始状态。