使用R包randomForest中的combine()函数

Question

使用R包randomForest中的combine()函数

rrandom-forest

3

我正在处理一个非常大的数据集，大约有120,000行和34列。如你所想象的那样，当使用R包randomForest时，即使在强大的Windows服务器上运行程序也需要相当长的时间。

虽然我不是randomForest的专家，但我对combine()函数的正确使用有疑问。

当我在网上研究这个问题时，似乎得到了不同的答案。有些人说只有在使用相同的数据集时才能使用combine()。还有人说可以直接使用combine()。

我的希望是将这120,000行数据分成6个数据框，每个数据框包含20,000行，并在每个数据框上执行randomForest。我希望能够使用combine()函数将所有6个结果组合起来。这是否可能？

如果您能提供任何帮助，将不胜感激。

- sheepsqueezers

使用子森林进行训练是一个好主意。我不知道combine函数，但我知道distributedR有一个分布式随机森林实现，可能是您问题的解决方案。 - Tad Dallas

combine()函数在编写时可能会给您带来麻烦。我认为最简单的解决方法是不使用combine函数。只需训练一些随机森林并将它们放入列表中，然后跨所有森林聚合投票。哦，甚至更好的方法是尝试设置sampsize=5000并在整个数据集上进行训练。然后每个树只选择5000个样本，应该可以运行得非常快。 - Soren Havelund Welling

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ECII · Accepted Answer

几个小时看起来很长。您确定您在优化过的设备上运行吗？也许您可以在Linux和AWS EC2上进行实验。此外，请查看“ranger”，自几周以来已经发布，网址为：http://arxiv.org/abs/1508.04409和https://cran.r-project.org/web/packages/ranger/index.html。

还要检查在R中并行执行随机森林。