我有一个包含100个变量和3000个观测值的大型数据集。 我想检测那些高度相关或冗余的变量(列),并在数据框中删除维度。 我尝试过这个方法,但它只计算一列与其他列之间的相关性;我总是收到错误消息。
for(i in 1:ncol(predicteurs)){
correlations <- cor(predicteurs[,i],predicteurs[,2])
names(correlations[which.max(abs(correlations))])
}
Warning messages:
1: In cor(predicteurs[, i], predicteurs[, 2]) :
the standard deviation is zero
2: In cor(predicteurs[, i], predicteurs[, 2]) :
the standard deviation is zero
有人能帮助我吗?
dplyr
?我会将它添加到代码中。 - maloneypatr