我正试图将线性判别分析应用于一个二类问题。据我所知,LDA假设两个类别具有相同的协方差矩阵,并且使用不同的均值对似然建模为高斯分布。
我尝试过的另一种分类器是朴素贝叶斯分类器。它忽略了预测变量之间的任何关联。
现在,当我将PCA应用于数据集时,我不明白会发生什么。按其定义,PCA算法旋转数据以使协方差矩阵成为对角矩阵。旋转不会使数据失真,但是由于协方差矩阵现在是对角线,因此朴素贝叶斯也能像LDA一样出色,甚至更好,因为LDA将有更多需要估计的参数。 然而,在我的数据上,无论是否进行PCA,朴素贝叶斯都被LDA性能超越。
实际上,只要使用所有主成分,数据就完全相同,这告诉我结果确实应该是这样。然而,协方差矩阵是对角线的... 大脑崩溃!
能有人向我解释一下吗?我希望我已经表达清楚我的问题。谢谢!
我尝试过的另一种分类器是朴素贝叶斯分类器。它忽略了预测变量之间的任何关联。
现在,当我将PCA应用于数据集时,我不明白会发生什么。按其定义,PCA算法旋转数据以使协方差矩阵成为对角矩阵。旋转不会使数据失真,但是由于协方差矩阵现在是对角线,因此朴素贝叶斯也能像LDA一样出色,甚至更好,因为LDA将有更多需要估计的参数。 然而,在我的数据上,无论是否进行PCA,朴素贝叶斯都被LDA性能超越。
实际上,只要使用所有主成分,数据就完全相同,这告诉我结果确实应该是这样。然而,协方差矩阵是对角线的... 大脑崩溃!
能有人向我解释一下吗?我希望我已经表达清楚我的问题。谢谢!