打开网易新闻 查看精彩图片
凌晨三点,某金融公司的运维群还在弹窗轰炸。CPU告警、内存告警、磁盘告警——同一台服务器的20条消息在30秒内刷屏,值班工程师的手指已经练出了肌肉记忆:解锁手机,划掉通知,继续睡觉。没人真的去看。
打开网易新闻 查看精彩图片
这种「警报疲劳」不是新鲜事。PagerDuty的调研显示,47%的运维团队每周收到超过500条告警,其中超过70%最终被标记为误报或无关。警报系统变成了数字时代的狼来了,真正的问题反而被淹没在噪音里。
打开网易新闻 查看精彩图片
这位AI架构师的解法很朴素:把「门控逻辑」和「奖励评分」焊在一起。传统做法里,触发条件和严重度打分是两拨人写的,条件说"CPU>90%就报警",评分模块只能硬着头皮给这个警报打高分。结果?一次计划内的批处理任务能制造出整夜的假警报海啸。
他的方案是让门控自己学会"后悔"。系统在发出警报前先跑一遍模拟:如果过去10分钟内有类似模式最终被人工忽略,当前这条就自动降级。用他的话来说:「我们不是缺警报,是缺敢闭嘴的警报。」
上线三个月后,该团队的 actionable alert 比例从12%拉到67%。唯一的问题是,值班工程师突然不太适应能睡整觉的日子了。
热门跟贴