如何在Windows环境下使用Mahout?

5
我正在尝试在运行Windows的应用程序中使用Mahout。我想使用k-means从lucene索引构建集群。
但是,一旦我需要创建序列文件(从lucene索引创建向量),由于Hadoop在Windows环境中调用未知程序(例如chmod),我就会遇到Hadoop异常。在Cygwin中运行不是一个选项,因为我希望能够从eclipse运行该应用程序。
因此,我的问题是:
  • 是否有一种方法可以避免创建序列文件来从lucene索引中检索向量?
  • 或者是否有一种在Windows环境中创建序列文件的方法?
  • 3个回答

    4
    唯一可以在Windows环境下运行Hadoop的方法是安装Cygwin。有关更多信息,请参见此博客文章:http://hayesdavis.net/2008/06/14/running-hadoop-on-windows/。Cygwin将提供所有Hadoop所依赖的命令行实用程序(如chmod)。如果您愿意,仍然可以从Eclipse中运行Hadoop作业。

    同意,这更多是关于Hadoop的问题,而且你不能在Windows上运行Hadoop。 - Sean Owen
    HDInsight 是用于 Windows Azure 的 Hadoop 实现。如果您想在本地机器上而非云环境中使用它,可以尝试使用 HDInsight 模拟器,您可以通过 Web Platform Installer 进行安装。 - user888734
    你可能需要更新你的回答,因为现在已经可以在Windows上使用Hadoop了(https://wiki.apache.org/hadoop/Hadoop2OnWindows)。我很乐意回答,但我还在寻找使用Mahout的方法 :) - merours

    1

    0

    你可以使用虚拟机来运行你的Hadoop环境。 对我来说,最好的解决方案是使用http://hortonworks.com/项目。 一切都很顺利。


    网页内容由stack overflow 提供, 点击上面的
    可以查看英文原文,
    原文链接