当使用caret进行预测时,如何处理每行缺失值?

3

我有一个大型数据集(200,000+ 行,140 个变量),每行至少有一个缺失值,我已将其替换为 NA。我正在尝试使用 caret 库进行预测。 rattle 库可以处理缺失值,但有人知道如何使用 caret 吗?

caret 库的指南建议您使用以下内容:

gbmFit1 <- train(twoplus~., data=training, method='GBM', trControl=fitControl, 
                 na.action=na.omit)

但是这会导致出现错误:
Error in train.formula(twoplus ~ ., data = training, method = "M5", trControl = fitControl,  : 
  Every row has at least one missing value were found

H2O中的GBM和randomForest算法可以自动处理缺失值。 - Geoffrey Anderson
1个回答

0

这仅仅意味着你的数据集中存在一些列,这些列在所有记录中都有缺失值。只需将这些列从数据集中排除即可。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接