我最近开始使用R进行数据分析。现在我在对一个大查询数据集(~1 GB的ASCII模式,在二进制模式下超过了我的笔记本电脑4GB RAM)进行排名时遇到了问题。使用bigmemory::big.matrix
可以解决这个数据集的问题,但是将这样的矩阵'm'提供给gbm()
或randomForest()
算法会导致错误:
cannot coerce class 'structure("big.matrix", package = "bigmemory")' into a data.frame
class(m)会输出以下内容:
[1] "big.matrix"
attr(,"package")
[1] "bigmemory"
有没有一种正确的方法可以将
big.matrix
实例传递到这些算法中?
randomForest
,但我认为他们支持大内存需求。例如,请参见http://www.revolutionanalytics.com/products/enterprise-big-data.php
。请注意,这是专有软件。有一个免费的学术版本。 - Xu Wanggbm
和randomForest
调用吗?具体来说,你是否在使用randomForest
的公式接口? - joran