现在每个厂商都在包装上印"AIOps"。但多数只是加了个写着"检测到异常"的仪表盘,就敢拿出来卖。
我想说说AIOps真正改变了什么,以及它没改变什么。
打开网易新闻 查看精彩图片
真正改变的三件事
打开网易新闻 查看精彩图片
第一,关联分析。传统监控针对症状报警——CPU飙升、500错误、队列积压。AIOps跨信号做关联,给你讲一个完整故事:"payments-api的14a23部署搞崩了结账流程,这是它触发的7条报警。"
第二,降噪。我以前所在的团队每天收300条报警,真正重要的也就40条。剩下的是重复报警、已知不稳定服务、或者瞬时波动。一套好的AIOps层能在人看到之前压掉80%。
第三,根因建议。注意是建议,不是答案。"基于历史事故,前3大可能根因是……"仍需人工确认,但能省你20分钟切来切去看仪表盘的时间。
没改变的三件事
打开网易新闻 查看精彩图片
你仍然需要好的埋点。仍然需要运维手册。仍然需要能拍板的人值班。
AIOps不是SRE的替代品。它是给已经懂行的SRE用的放大器。
如果你被报警淹没,答案不是加更多仪表盘。是让AI做分拣,让人类做思考。
热门跟贴