在进行机器学习建模之前,建议先移除高度相关的特征列。如何计算列间的相关性并删除相关性阈值大于0.8的列或描述符?同时保留缩减后数据集的表头。以下是一个数据集示例:
GA PN PC MBP GR AP
0.033 6.652 6.681 0.194 0.874 3.177
0.034 9.039 6.224 0.194 1.137 3.4
0.035 10.936 10.304 1.015 0.911 4.9
0.022 10.11 9.603 1.374 0.848 4.566
0.035 2.963 17.156 0.599 0.823 9.406
0.033 10.872 10.244 1.015 0.574 4.871
0.035 21.694 22.389 1.015 0.859 9.259
0.035 10.936 10.304 1.015 0.911 4.5
请帮忙....
DropCorrelatedFeatures()
转换器,可以为您完成繁重的工作,并且与sklearn兼容。features_to_drop_
属性显示它将删除哪些内容。 - kevin_theinfinityfundfindCorrelation
函数。它识别相关的列并返回除一个之外的所有标签。这里的现有答案会删除所有相关的列,这意味着会删除太多的列。 - undefined