企业中断的起点，为何总在运维料想之外？|人工智能|混合云|自动化|运维|运营

企业数据中心的中断很少始于运维团队紧盯的那些地方。混合云的复杂性压在割裂的团队和系统之上，让观察、理解、修复和预防中断变得几乎不可能。人手不足的运维和站点可靠性团队现在还必须跟上人工智能的节奏，而整个技术栈面临的不稳定与不安全风险比以往任何时候都要大。

面对这种局面，企业运维必须彻底改变处理第二天及后续阶段的方式。继续在服务或部门之间维持森严边界已经不再安全——这些边界本身也在阻碍人工智能投资的回报。要想生存下去，组织需要从各自为政的被动仪表板，转向一个闭环运营模型。在这个模型里，AI代理把编排、可观测性和修复组合成一个持续的反馈循环。

慧与混合云高级杰出技术专家帕尼达尔·科甘蒂向 The New Stack 解释说：“你得明白第二天和第一天处在一个闭环之中，因为你所部署的环境需要理解当前的棕地状态。当存在大量问题时，你可能不想做太多变更。”在运营团队面临当前限制的情况下，唯一的出路似乎是把人工智能技术应用到运营上，从所有噪音里提取信号。但这种从手工操作到自主修复的转变，需要的远不止注入一点AI。

AI使能的运维要求具备平台工程策略、预测分析能力以及新的运维指标体系。目标不是取代今天的运维人员，而是优化团队的时间，让他们更快、更有策略，并在高压时刻能够减轻压力。HPE数据中心业务部工程副总裁斯里达尔·卡特雷指出：“我们的客户正承受着用少得多的资源来维持同样服务级别协议的压力。” 这意味着在第二天出现问题时，能够参与排障的团队成员变得更少。

由运维团队管理的运维代理提供了一个在不扩大团队规模的前提下拓展排障和修复能力的机会。HPE OpsRamp 软件最近正式发布了其代理化运营副驾驶。科甘蒂介绍，通过它“你可以用非常高层次的意图表达试图达成的目标，系统会将其转换为详细的部署计划，涵盖数据中心、网络相关自动化、存储以及整个基础设施所需要的各种组件。”人工智能还能帮助运维团队从被动响应转向主动预防，而这也正是闭环理念落地的关键一环。