打开网易新闻 查看精彩图片

凌晨3点,PagerDuty第17次弹窗。运维工程师盯着满屏红色,已经分不清哪条该看、哪条该忽略——这是告警风暴的经典症状,像消防队同时接到100个火警电话,其中90个是烟雾报警器坏了。

打开网易新闻 查看精彩图片

这位AI工程师接手时,团队已经试过阈值调优、相关性降噪、甚至AI聚类,都没根治。问题出在两个环节各干各的:门控(Gating)负责"要不要告警",奖励打分(Reward Scoring)负责"有多紧急",但两边标准不统一,导致该拦的没拦住、该升高的没升高。

打开网易新闻 查看精彩图片

他的解法是把两个阶段拧成一股绳校准。具体做法是:用同一组历史事件同时训练门控和打分模型,让"是否告警"和"紧急程度"共享一套损失函数。换句话说,系统学会了一件事——如果最终证明某条告警被忽略了也没事,门控下次就直接拒掉,而不是先放行再打个低分。

部署后告警量从日均400+压到30条以内,误报率下降91%。团队在复盘文档里写了句大实话:「之前我们像在修两条永远对不齐的铁轨,现在终于让火车能顺畅到站了。」