12得票2回答
Airflow 1.9.0 -任务执行间隔时间长

我最近从v1.7.1.2升级到了v1.9.0,升级后我注意到CPU使用率显著增加。经过一番调查,我发现是这两个调度器配置选项导致的:min_file_process_interval(默认为0)和max_threads(默认为2)。 如预期所示,增加min_file_process_inte...

12得票1回答
为什么Airflow中的任务会卡住不执行?

我正在使用BigQueryOperator尝试Airflow。我想以后会使用Google Composer,但是我希望先在本地运行它。我已经成功地运行了Airflow和BashOperator,我还可以运行airflow test <dag> <task>,其中task...

12得票4回答
Airflow Worker 配置

我是Airflow的新手。我正在尝试使用Celery Executor设置Airflow的分布式模式,参考了这篇文章:https://stlong0521.github.io/20161023%20-%20Airflow.html 在详细介绍规范之前,我想确认一下我已经在一个独立实例上安装了...

12得票3回答
如何在当地时间午夜而非协调世界时午夜触发每日DAG运行

我位于UTC+4时区,因此当Airflow触发每晚的ETL时,这里已经是凌晨4:00了。我该如何告诉Airflow在当天的ds上运行前一天的20:00运行,但ds=ds呢? 根据文档强烈建议将所有服务器保持在UTC上,因此我正在寻找应用层面的解决方案。 编辑:一个笨拙的解决方案是将其定义为...

12得票3回答
Airflow: 值错误:无法配置处理程序 'processor' - wasb 日志记录器

我正在尝试配置使用Azure blob进行远程日志记录。 Airflow version: 1.10.2 Python: 3.6.5 Ubuntu: 18.04 以下是我的步骤: 在$AIRFLOW_HOME/config/log_config.py中,我将REMOTE_BASE_L...

12得票4回答
Airflow 1.10.3的SubDag只能并行运行一个任务,即使并发数为8。

最近,我将Airflow从1.9升级到了1.10.3(最新版)。 但是我注意到与SubDag并发相关的性能问题。只有一个子Dag内的1个任务可以被选中,这不是应该的方式,我们为SubDag设置的并发数为8。 请参见以下内容: get_monthly_summary-214和get_mont...

12得票2回答
Airflow加密变量

将Airflow更新至1.9后,所有变量都会被创建为加密状态。 是否可以禁用加密?

12得票2回答
Kubernetes与Apache Airflow的集成

我们正在构建工作流调度应用程序。我们发现Airflow是工作流管理器的好选择,Kubernetes是集群管理器的好选择。因此,工作流程如下: 我们将工作流DAG提交给Airflow。 Airflow应通过指定docker镜像将给定DAG的任务提交到Kubernetes。 Kubernete...

12得票3回答
手动触发的DAG应该使用哪个start_date?

许多设有schedule_interval=None的Airflow示例DAG会设置动态开始日期,例如airflow.utils.dates.days_ago(2)或datetime.utcnow()。但是,官方文档不建议使用动态开始日期: 我们建议不要使用动态值作为start_dat...

12得票1回答
任务在Airflow中重试次数超过指定次数

我最近将我的airflow升级到1.10.2版本。一些任务在dag中运行正常,而有些任务的重试次数超过了指定的重试次数。其中一个任务日志显示-尝试第2次的第26次尝试。即使失败了两次,为什么调度程序仍然要进行调度?有人遇到类似的问题吗?示例Dag-args = { 'owner': a...