用 Streamer Jar 运行 Hadoop 程序和使用程序的 Jar 文件运行有什么区别?
流式处理的优点:
缺点:
就个人而言,我更喜欢使用Java编写的Hadoop API和自定义Partitioner & Combiner。
你说得对,如果不使用Java,就无法使用核心的Hadoop功能。像ChainMapper和ChainReducer、ChainedJobs等这些东西在流式处理中是不可用的。此外,由于Hadoop是用Java编写的,因此使用Java会使它更快。
另外,理论上,在Mapper完成后没有Reducer开始运行。你可能会在HTML中看到Reducer同时运行,而它的输入正在移动。