Caret训练随机森林模型 - 执行时间异常长

4
在使用caret包训练随机森林模型时,我注意到执行时间异常地长。
> set.seed = 1;
> n = 500;
> m = 30;
> x = matrix(rnorm(n * m), nrow = n);
> y = factor(sample.int(2, n, replace = T), labels = c("yes", "no"))
> require(caret);
> require(randomForest);
> print(system.time({rf <- randomForest(x, y);}));
   user  system elapsed 
   0.99    0.00    0.98 
> print(system.time({rfmod <- train(x = x, y = y,
+                method = "rf",
+                metric = "Accuracy",
+                trControl = trainControl(classProbs = T)
+ );}));
   user  system elapsed 
  95.83    0.71   97.26 

在我看来,执行时间应该只会增加10倍,因为默认情况下会进行10倍交叉验证而不是单次运行。虽然我没有调整任何参数,但似乎train会自动完成:

> rfmod$results
  mtry  Accuracy       Kappa AccuracySD    KappaSD
1    2 0.4736669 -0.04437013 0.03323485 0.06493845
2   16 0.4818095 -0.03241901 0.03279341 0.06426745
3   30 0.4878361 -0.02149108 0.02956972 0.05936881

这最多只能解释30倍的差别,但运行时间却长达100倍。可能的解释是什么呢?

提前感谢!

1个回答

10

你没有在trainControl中指定method,因此默认为bootstrap的30次迭代,而且由于也没有设置tuneLength,因此你正在使用3个mtry值进行操作。

当你将计算成本乘以90倍时,应该不意外地出现99.2449倍的加速。

最大值


2
虽然您可能知道得更好,但根据文档,它是25次迭代,而不是30次:`trainControl(method = "boot", number = ifelse(grepl("cv", method), 10, 25), repeats = ifelse(grepl("cv", method), 1, number),` - maksay

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接