我正在使用R内的H2O库对一个包含70百万行和25个数字特征的训练集进行随机森林分类模型测试。总文件大小为5.6 GB。验证文件的大小为1 GB。我的系统配置为16 GB RAM和8个核心CPU。系统成功地将这两个文件读取到了H2O对象中。然后我输入以下命令来构建模型: model <...
当我加载conda env .yml文件时,我希望安装一个特定的旧版本包(h2o)。然而,这个包的旧版本只有在使用pip从托管.whl文件的url直接安装时才能正常工作。例如,如果我想安装3.18.0.8版本,我需要执行以下操作: pip install http://h2o-release...
你好,我正在R中使用h2o。 几周前,我将h2o软件包更新到最新版本。 h2o.getVersion() [1] "3.20.0.2" 但是当我使用 h2o.init 初始化一个新的 h2o 会话时,我收到了以下警告消息 In h2o.clusterInfo() : Your H...
我正在尝试保存h2o包中的一个h2o.automl中的所有模型。目前,我可以使用h2o.saveModel(aml@leader, path = "/home/data/user")保存单个模型。 如何保存所有模型? 以下是我在样本数据集上的尝试: library(h2o) h2o....
我正在尝试将一个稀疏矩阵导入到H2O中,想知道是否可能。假设我们有以下内容: test <- Matrix(c(1,0,0,1,1,1,1,0,1), nrow = 3, sparse = TRUE) 假设我的本地H2O是localH2O,我似乎无法执行以下操作: as.h2o(...
在下面的代码中,他们使用自编码器作为有监督的聚类或分类,因为他们有数据标签。但是,如果我没有数据标签,可以使用自编码器来聚类数据吗? 关于此问题的更多信息,请参见http://amunategui.github.io/anomaly-detection-h2o/。 谢谢。
使用h2o.H2OFrame()函数将Pandas数据框转换为H2O框时出现错误。 H2O框中会创建额外的行。经过调查发现,新行是其他行的副本。根据数据大小,添加的重复行数有所不同,但通常在2-10行左右。 代码: train_h2o = h2o.H2OFrame(python_obj=...
我的问题并不是: 维护 h2o 数据框的高效方法 H2O 运行速度比 data.table R 慢 在 h2o 中加载大于内存大小的数据 硬件 / 空间: 32 个 Xeon 线程,配备 ~256 GB RAM 大约有65 GB 的数据要上传。(约 56 亿个单元格) 问题: ...
使用H2O Python模块AutoML后,发现XGBoost位于排行榜的首位。然后我尝试从H2O XGBoost中提取超参数,并在XGBoost Sklearn API中进行复制。但是,这两种方法的性能不同: from sklearn import datasets from sklea...
与此R问题类似 here,在H2O中运行带有网格搜索的循环时,我遇到了内存不足的问题。在R中,在每个循环期间执行gc()确实有所帮助。这里的建议解决方案是什么?