使用R包randomForest中的combine()函数

3
我正在处理一个非常大的数据集,大约有120,000行和34列。如你所想象的那样,当使用R包randomForest时,即使在强大的Windows服务器上运行程序也需要相当长的时间。
虽然我不是randomForest的专家,但我对combine()函数的正确使用有疑问。
当我在网上研究这个问题时,似乎得到了不同的答案。有些人说只有在使用相同的数据集时才能使用combine()。还有人说可以直接使用combine()。
我的希望是将这120,000行数据分成6个数据框,每个数据框包含20,000行,并在每个数据框上执行randomForest。我希望能够使用combine()函数将所有6个结果组合起来。这是否可能?
如果您能提供任何帮助,将不胜感激。

使用子森林进行训练是一个好主意。我不知道combine函数,但我知道distributedR有一个分布式随机森林实现,可能是您问题的解决方案。 - Tad Dallas
combine()函数在编写时可能会给您带来麻烦。我认为最简单的解决方法是不使用combine函数。只需训练一些随机森林并将它们放入列表中,然后跨所有森林聚合投票。哦,甚至更好的方法是尝试设置sampsize=5000并在整个数据集上进行训练。然后每个树只选择5000个样本,应该可以运行得非常快。 - Soren Havelund Welling
1个回答

2

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接