没有输入文件的Hadoop Streaming作业

Question

3

是否可能执行没有输入文件的Hadoop Streaming作业？

在我的用例中，我可以通过一个单独的mapper和执行参数为reducer生成必要的记录。目前，我正在使用一个带有一行的桩输入文件，我想删除这个要求。

我们有两个用例。
1）

- Don Albrecht

你可以尝试自己创建自己的InputFormat并进行调试。但这是一个有趣的需求。我们能否了解更多关于为什么需要map-reduce或者你正在实现的逻辑的细节？ - Venkat

在使用案例1中，您是根据某个关键字进行缩减吗？这实质上是您试图分发的一个复制操作吗？ - Venkat

@Venkat 这实质上是一个分布式复制操作。 - Don Albrecht

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- carpenter · Accepted Answer

根据文档，这是不可能的。以下是执行所需的必要参数：

- 输入目录名或文件名 - 输出目录名 - 映射器可执行文件或Java类名 - 减速器可执行文件或Java类名

目前看来，提供一个虚拟输入文件是目前的解决方法。