打开网易新闻 查看精彩图片

去年全球可观测性(Observability)市场规模冲到47亿美元,但一个反直觉的数据正在流传——接近半数团队仍在用Excel表格追踪系统故障。AI功能成了每家厂商的标配,用户的实际体验却像收到一份"排版更精美的账单":数据没少,理解成本一点没降。

「AI加持」成了新包装,里面还是老三样

「AI加持」成了新包装,里面还是老三样

打开任意一款主流监控平台, anomaly detection(异常检测)、root cause analysis(根因分析)、automated insights(自动化洞察)几乎成了标准话术。厂商的演示视频里,AI能在3秒内定位内存泄漏,给出修复建议,甚至自动生成工单。

生产环境完全是另一回事。

某头部云厂商的SRE团队向我描述了一个典型场景:凌晨2点告警响起,AI标记为"高置信度异常",附带一份12页的关联分析。值班工程师花了40分钟逐条排查,最后发现是上游第三方服务的限流策略调整——这个变量根本没被纳入AI的关联图谱。用他们的话说,「AI给了我更多需要怀疑的数据」。

这种体验并非个例。多数团队的日常仍是告警风暴、上下文切换、在七八个仪表盘之间反复横跳。AI功能的加入,某种程度上只是把"信息过载"从2.0升级到了3.0。

一个残酷的类比:现在的AI可观测性工具,像是给急诊室配了台能生成医学论文的打印机——理论上有用,但医生止血的时候根本腾不出手读。

真正起效的改进,藏在细节里

真正起效的改进,藏在细节里

打开网易新闻 查看精彩图片

并非全盘否定。过去18个月,确有几种能力开始产生实际价值。

自然语言查询是其中之一。老牌厂商Datadog和新兴玩家如Metoro都推出了用日常语言检索日志的功能。"显示过去一小时支付服务所有5xx错误"——这种查询以前需要写复杂的查询语言,现在门槛大幅降低。对于非专职运维的开发人员,这意味着排查故障不再需要先学一门"方言"。

另一个被低估的进展是上下文压缩。部分工具开始尝试把数百个相关指标、日志片段、链路追踪聚合成一段人类可读的摘要,而非抛出一堆散点图。这解决的不是"信息量"问题,而是"认知带宽"问题。

但这两项改进有个共同点:它们不承诺"替代人类判断",只是减少机械劳动。恰恰是这种克制,让它们比那些声称"自动修复"的功能更可靠。

执行落差:为什么好想法变味了

执行落差:为什么好想法变味了

一位在可观测性领域创业五年的CTO向我解释了这个落差。「训练根因分析模型需要高质量的标注数据,但每家公司的架构都是 snowflake(雪花型,即独一无二)。你用GitHub公开数据训练的模型,遇到企业内部的定制中间件就抓瞎。」

更隐蔽的问题是反馈闭环缺失。AI给出建议后,用户是否采纳、建议是否正确、最终如何解决——这些信号很少被系统性地回收用于迭代模型。结果是工具在"猜",用户也在"猜",双方互相试探。

还有一个结构性矛盾:厂商的卖点是"减少告警噪音",但商业模式往往按数据量计费。数据越多,账单越高,AI"智能过滤"的动机就越复杂。这不是阴谋论,是公开的定价表摆在面前时,采购方自然会有的疑虑。

打开网易新闻 查看精彩图片

我们在哪个阶段

我们在哪个阶段

Metoro团队最近对比了十余款AI可观测性工具的演进轨迹,他们的判断和我观察到的基本一致:概念验证期已过,工程化爬坡期刚开始。

具体表现为——演示效果惊艳的功能,落地需要大量调参;真正节省时间的功能,往往不够"性感"难以成为采购决策的卖点;而销售话术里的"自主修复",在合同细则里通常能找到"建议"而非"执行"的限定词。

一个值得关注的信号是用户行为的变化。部分前沿团队开始把AI可观测性工具当作"初筛器"而非"终审法官":让AI快速排除明显无关的线索,缩小排查范围,最终决策仍依赖人工。这种"人机协作"的务实定位,可能比厂商宣传的"全自动"更有生命力。

也有反向案例。某金融科技公司去年全面启用某平台的"AI自动修复"功能,三个月后因一次误杀生产数据库连接池的配置,导致核心交易链路降级。事后复盘,AI的决策逻辑与运维团队的SOP存在隐性冲突——系统学会了"优化",但没学会"请示"。

这类事故正在让行业重新校准预期。2024年Gartner的调研显示,"AI可观测性"的搜索热度同比下降12%,而"可观测性数据治理"上升23%。用户从追逐新功能,转向追问数据质量和可控性。

这或许是健康的发展节奏。任何基础设施技术的成熟,都经历过"被高估的短期"和"被低估的长期"两个阶段。AI在监控领域的价值,可能不在于让机器替代人做决策,而在于把人的注意力从"找线索"转移到"做判断"——后者才是高价值工作。

你们团队用上AI监控功能了吗?是确实省了事,还是多了份需要验证的"AI猜测"?