Airflow任务全绿却丢数据？两种外部监控方案实测|airflow|dag|显式标识|监控器

凌晨两点，你的数据导出任务显示全部成功。数据库里却空空如也。这种"静默失败"比报错更致命——Airflow的内置告警根本不会触发。

本文基于官方技术文档，拆解两种外部监控方案：死亡开关（死信监控）+ 输出断言。核心目标只有一个：让"任务完成但零产出"这类故障能被及时发现。

为什么Airflow内置告警不够用

Airflow提供五种回调钩子：

• on_failure_callback — 任务或DAG运行失败
• on_success_callback — 任务或DAG运行成功
• on_retry_callback — 任务进入重试队列
• on_execute_callback — 任务即将开始执行
• on_skipped_callback — 任务触发跳过异常

这些钩子覆盖执行状态，但不覆盖业务结果。一个典型场景：导出任务连接了陈旧的数据库副本，超时后记录日志，干净退出。Airflow标记为绿色，on_success_callback正常触发，但数据从未落地。

你需要的是独立检查——一个Airflow外部的监控器，每次调度触发时追问两个问题：DAG完成了吗？产出了非零结果吗？

方案核心：死亡开关 + 输出断言

死亡开关（Dead Man's Switch）的工作逻辑：

• 设置预期上报间隔，例如"此DAG每24小时需上报一次"
• DAG完成时向监控器发送心跳
• 监控器在窗口期内未收到心跳即触发告警

这能捕获漏跑、暂停的DAG、调度器故障和执行漂移。但更强的是输出断言：上报时携带计数，监控器在计数为零时告警——即使任务成功完成并正常上报。

本文示例使用DeadManCheck，目前唯一支持输出断言的定时任务监控工具，免费版支持5个监控项。

正方：DAG级回调是最干净的方案

若需监控整个DAG运行而非单个任务，在DAG级别配置on_success_callback和on_failure_callback。

代码结构如下：

def ping_start(context): """标记DAG启动——启用耗时监控""" try: requests.get(f"{BASE_URL}/start", timeout=5) except Exception: pass # 绝不让监控逻辑中断主任务

def ping_success(context): """标记成功。从XCom拉取行数用于输出断言""" try: rows = context["ti"].xcom_pull(task_ids="export_data", key="rows_exported")