将Mahout模型输出导出为Weka输入

Question

将Mahout模型输出导出为Weka输入

hadoopwekamahoutdecision-tree

3

我希望使用Mahout决策树训练过程的输出模型作为基于Weka的分类器的输入模型。

由于基于数百万个训练记录的复杂决策树的训练对于单节点Weka分类器来说几乎是不切实际的，因此我想使用Mahout构建模型，例如使用Random Forest Partial Implementation。

虽然上述算法在训练时可能存在问题，但在单台机器上使用Weka进行预测相当简单。

在Mahout wiki site 上指出导入数据格式包括Weka ARFF格式，但不包括导出格式。

是否可以使用Mahout中的一些现有实现来训练模型，以便在基于简单Weka的系统中用于生产？

- Guy

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- kaz · Accepted Answer

我认为你所要求的是不可能实现的：.arff是一种数据格式，所有导入/导出菜单中的选项都是数据格式。Weka可以保存/加载的分类器实际上是Weka的Java Classifier对象，使用Java的Serializable接口将其写入文件。它们不是可移植的树，而是比创建它们的JVM更持久的Java对象。因此，要做到你想要的，Mahout或Weka必须能够生成/读取彼此的代码，但我找不到任何文档说明这一点。

我的经验是，对于数百万个训练记录（每个记录包含约45个数字特征/列），使用默认选项的Weka随机森林实现非常快（在单个2.26GHz核心上运行几秒钟），因此可能没有必要使用Mahout。不过，你的数据集可能会有不同的结果。