使用Apache Oozie对Apache Spark进行编排

Question

使用Apache Oozie对Apache Spark进行编排

hadoopbigdataapache-sparkoozie

4

我们正在考虑将Apache Spark集成到我们的计算过程中，最初我们想使用Apache Oozie和标准MR或MO（Map-Only）作业。

经过一些研究，仍然有几个问题需要解决：

1. 是否可以使用Apache Oozie编排Apache Spark进程？如果是，如何实现？

2. Oozie是否还必要，或者Spark自己能够处理编排？（统一似乎是Spark的主要关注点之一）

请在回答时考虑以下场景：

1. 每4小时执行工作流程

2. 每当可以访问特定数据时执行工作流程

3. 触发工作流并配置参数

谢谢您提前的回答。

- Matthias Kricke

不太了解Oozie，但我认为对于Spark来说，尽可能简单最好，因为大部分流程处理都在作业内完成。 - aaronman

在这个过程中，我们多次遇到了Spark类路径问题。我们尝试解决从HDFS获取Spark JAR包的问题，但是仍然存在未解决的问题。它会返回“跳过远程JAR”错误，就像这篇文章中所述：http://mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/%3C1402447738231-7356.post@n3.nabble.com%3E 如果我们找到解决方案，我会再次发布。 - Brian Dolan

但是我还没有尝试过。https://issues.apache.org/jira/browse/OOZIE-1983 - meer

谢谢！不幸的是，它仍未被包含进行适当的测试。 - Matthias Kricke

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mikhail Golubtsov · Accepted Answer

Spark作为一种操作类型，被支持在Oozie 4.2中，详情请参阅文档。你所提到的情境是Oozie常见的功能。