使用Apache Oozie对Apache Spark进行编排

4
我们正在考虑将Apache Spark集成到我们的计算过程中,最初我们想使用Apache Oozie和标准MR或MO(Map-Only)作业。
经过一些研究,仍然有几个问题需要解决:
1. 是否可以使用Apache Oozie编排Apache Spark进程?如果是,如何实现?
2. Oozie是否还必要,或者Spark自己能够处理编排?(统一似乎是Spark的主要关注点之一)
请在回答时考虑以下场景:
1. 每4小时执行工作流程
2. 每当可以访问特定数据时执行工作流程
3. 触发工作流并配置参数
谢谢您提前的回答。

不太了解Oozie,但我认为对于Spark来说,尽可能简单最好,因为大部分流程处理都在作业内完成。 - aaronman
在这个过程中,我们多次遇到了Spark类路径问题。我们尝试解决从HDFS获取Spark JAR包的问题,但是仍然存在未解决的问题。它会返回“跳过远程JAR”错误,就像这篇文章中所述:http://mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/%3C1402447738231-7356.post@n3.nabble.com%3E 如果我们找到解决方案,我会再次发布。 - Brian Dolan
但是我还没有尝试过。https://issues.apache.org/jira/browse/OOZIE-1983 - meer
谢谢!不幸的是,它仍未被包含进行适当的测试。 - Matthias Kricke
1个回答

3

Spark作为一种操作类型,被支持在Oozie 4.2中,详情请参阅文档。你所提到的情境是Oozie常见的功能。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接