我一直在学习R语言中的主成分分析(PCA)概念。
对于应用PCA到(比如,有标签的)数据集并从矩阵中提取最有趣的前几个主成分作为数值变量这一点,我感觉很自在。
然而,最终的问题是:现在该怎么办呢?大部分关于PCA的阅读都在计算完成后立即停止,特别是涉及到机器学习方面。请原谅我的夸张,但我感觉每个人都认为这个技术很有用,但完成之后似乎没有人想要实际使用它。
更具体而言,这是我的真正问题:
我知道主成分是你所开始的变量的线性组合。那么,这个转换后的数据在监督式机器学习中扮演什么角色?有什么办法可以利用PCA来降低数据集的维度,并且然后将这些组件与一个有监督学习器(例如SVM)一起使用?
我对我们的标记采取了怎样的处理方式感到非常困惑。一旦我们进入特征空间,就很好。但我没有看到任何继续进行机器学习的方法,如果这种转换破坏了我们对分类的概念(除非我遇到了某种“是”或“否”的线性组合,但我并没有)。