主成分分析(PCA)是一种寻找数据集中最佳描述方差的特征的方法。它通常用于减少大型数据集的维数,以便在原始数据具有高维度(例如图像识别)的情况下更容易应用机器学习。
然而,PCA有其局限性,因为它依赖于特征元素之间的线性关系,并且在开始之前通常不清楚这些关系。由于PCA“隐藏”了对数据方差贡献较小的特征元素,有时会消除一个小但重要的区分因素,从而影响机器学习模型的性能。
仅作为以上非常好的答案的补充。不同之处在于,PCA将通过探索数据中一项功能如何用其他功能(线性相关性)表达来尝试减少维度。 相反,特征选择考虑了目标。它将按照输入变量对预测目标值的有用程度对其进行排名。这对于单变量特征选择是正确的。 多变量特征选择也可以做一些可以视为PCA形式的事情,因为它会丢弃一些输入中的特征。但是不要把这个比喻过分解读。
您可以使用PCA进行特征选择。
主成分分析(PCA)是一种技术,
“使用正交变换将可能相关的变量观测集转换为未相关的值集合,称为主成分。”
PCA帮助我们根本上回答的问题是:这M个参数中哪些解释了数据集中包含的大量变化? PCA基本上帮助应用了80-20法则:小的参数子集(例如20%)是否能够解释数据中80%或更多的变化?
但它也有一些缺点:它对比例尺度敏感,并且会给具有更高数量级的数据赋予更多的权重。数据归一化并不总是解决方案,如此处所述:
有其他方法可以进行特征选择:
特征选择算法可以被看作是提出新特征子集的搜索技术与对不同特征子集进行评分的评估度量的组合。最简单的算法是测试每个可能的特征子集,找到使误差率最小化的那个。这是对空间的穷举搜索,对于特征集较大的情况下计算复杂度难以承受。评估指标的选择会极大地影响算法,正是这些评估指标区分了特征选择算法的三个主要类别:包装器、过滤器和嵌入式方法。
在某些领域中,特征提取可以建议特定的目标:在图像处理中,您可能希望执行斑点、边缘或脊线检测。