我正在处理一个非常大的数据集,大约有120,000行和34列。如你所想象的那样,当使用R包randomForest时,即使在强大的Windows服务器上运行程序也需要相当长的时间。
虽然我不是randomForest的专家,但我对combine()函数的正确使用有疑问。
当我在网上研究这个问题时,似乎得到了不同的答案。有些人说只有在使用相同的数据集时才能使用combine()。还有人说可以直接使用combine()。
我的希望是将这120,000行数据分成6个数据框,每个数据框包含20,000行,并在每个数据框上执行randomForest。我希望能够使用combine()函数将所有6个结果组合起来。这是否可能?
如果您能提供任何帮助,将不胜感激。
虽然我不是randomForest的专家,但我对combine()函数的正确使用有疑问。
当我在网上研究这个问题时,似乎得到了不同的答案。有些人说只有在使用相同的数据集时才能使用combine()。还有人说可以直接使用combine()。
我的希望是将这120,000行数据分成6个数据框,每个数据框包含20,000行,并在每个数据框上执行randomForest。我希望能够使用combine()函数将所有6个结果组合起来。这是否可能?
如果您能提供任何帮助,将不胜感激。
combine
函数,但我知道distributedR有一个分布式随机森林实现,可能是您问题的解决方案。 - Tad Dallas