「AI不是死在模型上,是死在布局上。」KubeCon EU现场这句话,戳破了行业最尴尬的窗户纸。

新研究显示,大多数AI项目根本进不了生产环境。搞砸的往往不是算法精度,而是集成和运维执行——简单说,东西做出来了,跑不起来。

打开网易新闻 查看精彩图片

Red Hat这次拿出的方案,是给Kubernetes装一个专门伺候AI工作负载的控制平面。不是修修补补,是重新设计。

一张图看懂:AI基础设施的裂缝在哪

想象你的AI系统像一条供应链:数据在东,算力在西,合规要求在南,成本优化在北。四个方向各自为政,中间没有统一调度。

这就是Paul Nashawaty说的「碎片化」——云、边缘、本地数据中心,三套系统从未约定过如何像一个整体那样运转。AI把这种分裂暴露得淋漓尽致。

Red Hat的回应是「水平平台」思路。不是让每个业务单元自建孤岛,而是在底层铺一层统一的Kubernetes控制平面,让Llama模型和OpenAI接口能在同一张网里被调度。

这个逻辑听起来直白,但技术债很深。

Kubernetes的原罪:它为容器而生,不为推理而长

Kubernetes的设计初衷是调度容器。启动、停止、扩缩容——这些它很擅长。但AI推理要的是另一套东西:跨区域一致性、毫秒级延迟稳定性、资源争抢时的优先级仲裁。

Robert Shaw管这叫「第二天问题」。模型训练完只是开始,真正的噩梦是运行时——延迟忽高忽低,资源互相挤占,策略配置慢慢跑偏。这些不会在第一天的demo里出现,但会在第三个月的凌晨三点打电话叫醒你。

Red Hat AI Enterprise想把这些运维动作「产品化」。不是写一堆脚本救火,而是让平台自己知道怎么处理分布式推理的常态 chaos。

这里有个细节值得玩味:他们押注的开源框架叫llm-d,托管在CNCF,专门用来跨集群调度大模型负载。不是闭门造车,是试图把企业需求反向输送给社区标准。

主权:一个被低估的架构约束

碎片化有个更正式的名字:主权。数据受企业策略约束,算力受区域法规约束,模型受业务单元预算约束。这些边界不会消失,只能被工程化地跨越。

Mike Barrett的观察很接地气:财务部跑Llama,会计部调OpenAI,两边都想用最便宜的方式拿到想要的智能。没有水平平台,这就是两道重复建设;有了,就是一层抽象后的资源池。

Red Hat的赌注在于,企业宁愿为「跨环境一致性」付溢价,也不愿为每个场景单独运维。这个判断如果成立,Kubernetes控制平面的价值会从「容器编排」升级为「AI基础设施的操作系统」。

为什么这事值得你盯一眼

如果你在做AI平台的采购决策,或者正在把模型从实验室往生产环境搬,这个信号很明确:选基础设施时,「能跑起来」和「能一直跑下去」是两个完全不同的验收标准。

Red Hat的方案不是唯一解,但它把问题定义得很清楚——AI生产化的瓶颈不在算法,在工程。而工程问题的解法,往往藏在控制平面的设计里。