运维花2年没解决的告警风暴，被他用1个校准公式平了

硬核玩家2哈

2026-03-26 21:22 ·北京

凌晨3点，PagerDuty第17次弹窗。运维工程师盯着满屏红色，已经分不清哪条该看、哪条该忽略——这是告警风暴的经典症状，像消防队同时接到100个火警电话，其中90个是烟雾报警器坏了。

这位AI工程师接手时，团队已经试过阈值调优、相关性降噪、甚至AI聚类，都没根治。问题出在两个环节各干各的：门控（Gating）负责"要不要告警"，奖励打分（Reward Scoring）负责"有多紧急"，但两边标准不统一，导致该拦的没拦住、该升高的没升高。

他的解法是把两个阶段拧成一股绳校准。具体做法是：用同一组历史事件同时训练门控和打分模型，让"是否告警"和"紧急程度"共享一套损失函数。换句话说，系统学会了一件事——如果最终证明某条告警被忽略了也没事，门控下次就直接拒掉，而不是先放行再打个低分。

部署后告警量从日均400+压到30条以内，误报率下降91%。团队在复盘文档里写了句大实话：「之前我们像在修两条永远对不齐的铁轨，现在终于让火车能顺畅到站了。」

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴