7得票2回答
为什么连接会终止

我正在使用R内的H2O库对一个包含70百万行和25个数字特征的训练集进行随机森林分类模型测试。总文件大小为5.6 GB。验证文件的大小为1 GB。我的系统配置为16 GB RAM和8个核心CPU。系统成功地将这两个文件读取到了H2O对象中。然后我输入以下命令来构建模型: model <...

7得票1回答
在conda环境的.yml文件中指定一个.whl文件的url

当我加载conda env .yml文件时,我希望安装一个特定的旧版本包(h2o)。然而,这个包的旧版本只有在使用pip从托管.whl文件的url直接安装时才能正常工作。例如,如果我想安装3.18.0.8版本,我需要执行以下操作: pip install http://h2o-release...

7得票2回答
H2O警告消息:集群太旧

你好,我正在R中使用h2o。 几周前,我将h2o软件包更新到最新版本。 h2o.getVersion() [1] "3.20.0.2" 但是当我使用 h2o.init 初始化一个新的 h2o 会话时,我收到了以下警告消息 In h2o.clusterInfo() : Your H...

7得票1回答
如何从h2o automl中保存所有模型

我正在尝试保存h2o包中的一个h2o.automl中的所有模型。目前,我可以使用h2o.saveModel(aml@leader, path = "/home/data/user")保存单个模型。 如何保存所有模型? 以下是我在样本数据集上的尝试: library(h2o) h2o....

7得票1回答
如何将稀疏矩阵导入H2O?

我正在尝试将一个稀疏矩阵导入到H2O中,想知道是否可能。假设我们有以下内容: test <- Matrix(c(1,0,0,1,1,1,1,0,1), nrow = 3, sparse = TRUE) 假设我的本地H2O是localH2O,我似乎无法执行以下操作: as.h2o(...

7得票2回答
我可以为聚类使用自编码器吗?

在下面的代码中,他们使用自编码器作为有监督的聚类或分类,因为他们有数据标签。但是,如果我没有数据标签,可以使用自编码器来聚类数据吗? 关于此问题的更多信息,请参见http://amunategui.github.io/anomaly-detection-h2o/。 谢谢。

7得票3回答
Python中的H2OFrame()是否存在Bug,会在Pandas DataFrame中添加额外的重复行?

使用h2o.H2OFrame()函数将Pandas数据框转换为H2O框时出现错误。 H2O框中会创建额外的行。经过调查发现,新行是其他行的副本。根据数据大小,添加的重复行数有所不同,但通常在2-10行左右。 代码: train_h2o = h2o.H2OFrame(python_obj=...

7得票1回答
如何快速将数据导入h2o

我的问题并不是: 维护 h2o 数据框的高效方法 H2O 运行速度比 data.table R 慢 在 h2o 中加载大于内存大小的数据 硬件 / 空间: 32 个 Xeon 线程,配备 ~256 GB RAM 大约有65 GB 的数据要上传。(约 56 亿个单元格) 问题: ...

7得票1回答
使用来自H2O的超参数在Sklearn中重新构建XGBoost在Python中给出了不同的性能表现

使用H2O Python模块AutoML后,发现XGBoost位于排行榜的首位。然后我尝试从H2O XGBoost中提取超参数,并在XGBoost Sklearn API中进行复制。但是,这两种方法的性能不同: from sklearn import datasets from sklea...

7得票1回答
Python H2O内存管理

与此R问题类似 here,在H2O中运行带有网格搜索的循环时,我遇到了内存不足的问题。在R中,在每个循环期间执行gc()确实有所帮助。这里的建议解决方案是什么?