HDFS是Hadoop的核心部分,我知道这一点。但是如果我不想将数据存储在HDFS上,而是希望在可通过NFS协议访问的远程服务器上分析和运行Hadoop作业中的数据,该怎么做呢?
例如,我希望使用NFS服务器上的数据来运行Teragen,如下所示:
hadoop jar hadoop-mapreduce-examples.jar teragen 1000000000 nfs://IP/some/path
我只是在寻找如何实现这个想法的想法,并且我理解所有这一切的后果(HDFS与NFS)。因此,虽然我感激任何人告诉我这是一个坏主意,但我仍然想尝试一些实验。
也许我可以编写一些代码来实现这个想法,但任何指导我需要从哪里开始的指针都将有所帮助,也会受到赞赏。我也不想重复造轮子。因此,如果像我不知道的类似东西已经存在,请务必发表评论并让我知道。我构建的任何内容都将成为开源的,以便他人也可以受益。