我最近从v1.7.1.2升级到了v1.9.0,升级后我注意到CPU使用率显著增加。经过一番调查,我发现是这两个调度器配置选项导致的:min_file_process_interval(默认为0)和max_threads(默认为2)。 如预期所示,增加min_file_process_inte...
我正在使用BigQueryOperator尝试Airflow。我想以后会使用Google Composer,但是我希望先在本地运行它。我已经成功地运行了Airflow和BashOperator,我还可以运行airflow test <dag> <task>,其中task...
我是Airflow的新手。我正在尝试使用Celery Executor设置Airflow的分布式模式,参考了这篇文章:https://stlong0521.github.io/20161023%20-%20Airflow.html 在详细介绍规范之前,我想确认一下我已经在一个独立实例上安装了...
我位于UTC+4时区,因此当Airflow触发每晚的ETL时,这里已经是凌晨4:00了。我该如何告诉Airflow在当天的ds上运行前一天的20:00运行,但ds=ds呢? 根据文档强烈建议将所有服务器保持在UTC上,因此我正在寻找应用层面的解决方案。 编辑:一个笨拙的解决方案是将其定义为...
我正在尝试配置使用Azure blob进行远程日志记录。 Airflow version: 1.10.2 Python: 3.6.5 Ubuntu: 18.04 以下是我的步骤: 在$AIRFLOW_HOME/config/log_config.py中,我将REMOTE_BASE_L...
最近,我将Airflow从1.9升级到了1.10.3(最新版)。 但是我注意到与SubDag并发相关的性能问题。只有一个子Dag内的1个任务可以被选中,这不是应该的方式,我们为SubDag设置的并发数为8。 请参见以下内容: get_monthly_summary-214和get_mont...
我们正在构建工作流调度应用程序。我们发现Airflow是工作流管理器的好选择,Kubernetes是集群管理器的好选择。因此,工作流程如下: 我们将工作流DAG提交给Airflow。 Airflow应通过指定docker镜像将给定DAG的任务提交到Kubernetes。 Kubernete...
许多设有schedule_interval=None的Airflow示例DAG会设置动态开始日期,例如airflow.utils.dates.days_ago(2)或datetime.utcnow()。但是,官方文档不建议使用动态开始日期: 我们建议不要使用动态值作为start_dat...
我最近将我的airflow升级到1.10.2版本。一些任务在dag中运行正常,而有些任务的重试次数超过了指定的重试次数。其中一个任务日志显示-尝试第2次的第26次尝试。即使失败了两次,为什么调度程序仍然要进行调度?有人遇到类似的问题吗?示例Dag-args = { 'owner': a...