通过 E-MapReduce(EMR)控制台您可以优雅便捷地修改 Airflow 的运行时配置(详情参见:服务管理-管理服务配置参数),本文为您介绍 Airflow 的几个关键配置。
模块 | 参数 | 描述 |
---|---|---|
core | dags_folder | 定义 Airflow 读取 DAG 文件的目录。 |
plugins_folder | 定义 Airflow 读取 plugins 文件的目录。 | |
default_timezone | 默认时区设置,支持 IANA 时区字符。 | |
parallelism | Airflow 全局可以并行运行的最大任务数。 | |
max_active_runs_per_dag | 定义单个 DAG 最多可同时拉起的 DAG Runs 数量。 | |
max_active_tasks_per_dag | 定义单个 DAG 最多同时可运行的任务实例数。 | |
default_task_retries | 定义任务最多的重试次数,可在 DAG 与 Task 级别单独定义。 | |
scheduler | parsing_processes | 控制 Airflow 可以用多少 Scheduler 进程去并发地解析 DAG 文件。 |
catchup_by_default | 可以控制 Scheduler 是否对 DAG 进行当前时间与 DAG 的 start_date 之间的 backfill 操作,该值不影响通过命令行方式进行的 backfill。 | |
dag_dir_list_interval | 定义 Scheduler 间隔多少时间去扫描 DAGs 目录从而发现新文件。 | |
min_file_process_interval | 控制已被解析过的 DAGs 文件,在间隔多久时间会被重新解析以便更新。间隔太小会显著增加系统负担。 | |
scheduler_zombie_task_threshold | 运行中的 Task 会周期性地向数据库报告心跳。该参数控制经过多少时间 Task 没有向 DB 汇报时,会被 Scheduler 标记为失败,并且重新调度。 | |
celery | worker_concurrency | 该属性将在您使用 |
worker_autoscale | 以 | |
webserver | default_ui_timezone | 用于 UI 上展示所有数据的默认时区,支持 IANA 时区字符。 |
page_size | 统一控制在Airflow UI 上所有的列表视图上展示的条目数量。 | |
default_dag_run_display_number | 控制在 UI 上展示的 DAG Runs 数量。 |
关于 Airflow 组件完整的配置说明,详情请参见官方文档:Configuration Reference。