22得票2回答
如何在R中的二元h2o GBM中为每个类别获取不同的变量重要性?

我想探索使用h2o中的GBM解决分类问题,以替代逻辑回归(GLM)。我的数据中的非线性和交互作用让我认为GBM更加合适。 我运行了一个基准GBM(见下文),并将其AUC与逻辑回归的AUC进行了比较。GBM表现得更好。 在经典的线性逻辑回归中,人们可以看到每个预测变量(x)对结果变量(y)的...

21得票2回答
将Pandas数据框高效转换为H2O框架

我有一个Pandas数据框,其编码为latin-1,以;分隔。数据框非常大,大小为350000 x 3800。我最初想使用sklearn,但是我的数据框缺失值(NAN value),因此我无法使用sklearn的随机森林或GBM。因此,我不得不使用 H2O的分布式随机森林来训练数据集。主要问题...

20得票3回答
如何将R数据框转换为H2O对象

我是R和H2O的新手,我尝试找到一种将R数据框转换为H2O对象的方法。我已经花了一些时间研究如何做到这一点,但没有成功。另一种方式是可行的,而且有很好的文档记录,如下所示。prosPath = system.file("extdata", "prostate.csv", package="h2...

16得票3回答
如何设置SPARK_HOME变量?

请按照链接http://h2o-release.s3.amazonaws.com/sparkling-water/rel-2.2/0/index.html中的Sparkling Water步骤操作。 在终端中运行: ~/InstallFile/SparklingWater/sparklin...

14得票3回答
读取100,000个.dat.gz文件的最快方法

我有几十万个非常小的 .dat.gz 文件,希望以最高效的方式将它们读入R。我读取文件,然后立即对数据进行聚合并且删除,所以我不担心在接近流程结束时管理内存。我只是真的想加快速度瓶颈,这正好是解压缩和读取数据。 每个数据集由366行和17列组成。以下是我目前正在做的可复制示例: 构建可复制...

13得票1回答
在R中实现LIME对h2o建模的解释

I希望在使用R中创建的h2o(深度学习)模型上实现LIME。为了使用模型中的数据,我创建了h2oFrames,并在在使用LIME(lime函数)之前将其转换回dataframe。在这里,我能够运行该函数。 下一步是在测试数据上使用explain函数生成解释。在这里,当使用dataframe和...

12得票6回答
Python在Anaconda中找不到h2o包。

当我尝试导入h2o时,它告诉我该包不存在。当我尝试安装它时,它告诉我它已经存在。我曾试图将其从我的计算机中清除并重新安装,但均无效。此时我唯一能想到的是某些环境变量。(C:\Users\Lanier\Anaconda2) C:\Users\Lanier>python Python 2.7...

12得票2回答
有没有一种方法可以将h2oframe转换为pandas dataframe?

我能将数据框转换为h2oframe,但如何将其重新转换回数据框?如果可能的话,我可以将它转换为Python列表吗?import pandas as pd import h2o df = pd.DataFrame({'1': [2838, 3222, 4576, 5665, 5998], '2'...

12得票2回答
预测分类还是分类概率?

我目前正在使用H2O处理分类问题的数据集,在Python 3.6环境下测试 H2ORandomForestEstimator。我注意到预测方法的结果给出了介于0到1之间的值(我认为这是概率)。 在我的数据集中,目标属性是数值类型,即True的值为1,False的值为0。我确保将目标属性的类型...

11得票2回答
在R中使用H2O出现错误 - 无法连接到本地主机

我无法在R中使用h2o,它显示以下错误。我不知道它的意思。以前因为我没有64位版本的Java而给了我一个错误。我下载了64位版本 - 重新启动了我的电脑 - 然后再次开始这个过程,现在它给我这个错误。 有什么建议吗?library(h2o) ------------------------...