我需要管理一组 ETL 任务的工作流,这些任务的执行取决于时间、数据可用性或外部事件。在工作流执行期间,可能会有一些任务失败,系统应该有能力重新启动失败的分支而不必等待整个工作流执行完。 有没有 Python 中可以处理这种情况的框架? 我看到几个核心功能: DAG 构建 节点的执行 ...
我对作业调度程序还不熟悉,想找一个在大数据集群上运行作业的调度程序。但是现有的选择让我感到困惑。相比于TWS、Autosys等已有的调度程序,发现Oozie存在很多限制。 请提供一些Oozie和Airflow之间的比较点。 非常感谢您的帮助。
Oozie工作流、协调器和捆绑包之间有什么区别? Oozie工作流定义了一系列操作。每次想要运行它时,我们需要手动调用它。 而同样的工作流可以通过协调器进行调度。 这个理解正确吗? 那么捆绑包中有什么额外的内容呢? 我猜它是用于调度一组协调器。那么为什么不能使用一个协调器来调度另一个协调...
我正在尝试通过Oozie运行一个sh脚本,但是我遇到了问题: 无法在目录“/mapred/local/taskTracker/dell/jobcache/job_201312061003_0001/attempt_201312061003_0001_m_000000_0/work”中运行程...
我希望能够通过Oozie CLI执行类似以下操作:oozie job -oozie http://host:port/oozie -config jobConfig.properties, baseConfig.properties -submit 我有很多不同的工作正在运行,其中一部分.pr...
我们正在oozie中运行一个工作流。它包含两个步骤:第一个是MapReduce任务,它在HDFS中生成文件;第二个任务是将这些文件中的数据复制到数据库中。 两部分都成功完成,但最后oozie抛出了一个异常,将其标记为失败的过程。 以下是异常信息:2014-05-20 17:29:32,24...
当我访问oozie UI时,我遇到了以下信息: Oozie Web控制台已禁用。 要启用Oozie Web控制台,请安装Ext JS库。 我使用HDP分发,并通过ambari服务安装程序进行安装。 我尝试按照以下链接操作: https://docs.hortonwor...
我已经创建了一个oozie工作流程,用于将数据加载到表中的hive脚本。 我的workflow.xml包含:<workflow-app xmlns="uri:oozie:workflow:0.4" name="Hive-Table-Insertion"> <start ...
我正在尝试在Oozie工作流中聚合一些数据。然而,聚合步骤失败了。 我在日志中发现了两个有趣的点:第一个是一个错误(?)似乎反复发生: 容器完成后被杀死,但退出时返回非零的Exit code 143。 它完成了: 2015-05-04 15:35:12,013 INFO [IPC Se...