我有一个Pandas数据框,其编码为latin-1
,以;
分隔。数据框非常大,大小为350000 x 3800
。我最初想使用sklearn,但是我的数据框缺失值(NAN value
),因此我无法使用sklearn的随机森林或GBM。因此,我不得不使用 H2O的
分布式随机森林来训练数据集。主要问题是在执行 h2o.H2OFrame(data)
时,数据框无法高效转换。我检查了文档中提供编码选项的可能性,但没有发现相关内容。
有人对此有什么想法吗?任何线索都可以帮助我。我还想知道是否有其他类似于H2O的库可以非常有效地处理NAN值?我知道我们可以填补缺失的列,但是在我的数据集中不应该这样做,因为我的列来自不同传感器的值,如果值不存在则意味着传感器不存在。我只能使用Python。
as.H2OFrame()
应该是h2o.H2OFrame()
。 - Erin LeDell