红帽重构AI控制平面：Kubernetes终于要对推理下手了

薛定谔的BUG

2026-04-30 23:14 ·北京

「AI不是死在模型上，是死在布局上。」KubeCon EU现场这句话，戳破了行业最尴尬的窗户纸。

新研究显示，大多数AI项目根本进不了生产环境。搞砸的往往不是算法精度，而是集成和运维执行——简单说，东西做出来了，跑不起来。

Red Hat这次拿出的方案，是给Kubernetes装一个专门伺候AI工作负载的控制平面。不是修修补补，是重新设计。

一张图看懂：AI基础设施的裂缝在哪

想象你的AI系统像一条供应链：数据在东，算力在西，合规要求在南，成本优化在北。四个方向各自为政，中间没有统一调度。

这就是Paul Nashawaty说的「碎片化」——云、边缘、本地数据中心，三套系统从未约定过如何像一个整体那样运转。AI把这种分裂暴露得淋漓尽致。

Red Hat的回应是「水平平台」思路。不是让每个业务单元自建孤岛，而是在底层铺一层统一的Kubernetes控制平面，让Llama模型和OpenAI接口能在同一张网里被调度。

这个逻辑听起来直白，但技术债很深。

Kubernetes的原罪：它为容器而生，不为推理而长

Kubernetes的设计初衷是调度容器。启动、停止、扩缩容——这些它很擅长。但AI推理要的是另一套东西：跨区域一致性、毫秒级延迟稳定性、资源争抢时的优先级仲裁。

Robert Shaw管这叫「第二天问题」。模型训练完只是开始，真正的噩梦是运行时——延迟忽高忽低，资源互相挤占，策略配置慢慢跑偏。这些不会在第一天的demo里出现，但会在第三个月的凌晨三点打电话叫醒你。

Red Hat AI Enterprise想把这些运维动作「产品化」。不是写一堆脚本救火，而是让平台自己知道怎么处理分布式推理的常态 chaos。

这里有个细节值得玩味：他们押注的开源框架叫llm-d，托管在CNCF，专门用来跨集群调度大模型负载。不是闭门造车，是试图把企业需求反向输送给社区标准。

主权：一个被低估的架构约束

碎片化有个更正式的名字：主权。数据受企业策略约束，算力受区域法规约束，模型受业务单元预算约束。这些边界不会消失，只能被工程化地跨越。

Mike Barrett的观察很接地气：财务部跑Llama，会计部调OpenAI，两边都想用最便宜的方式拿到想要的智能。没有水平平台，这就是两道重复建设；有了，就是一层抽象后的资源池。

Red Hat的赌注在于，企业宁愿为「跨环境一致性」付溢价，也不愿为每个场景单独运维。这个判断如果成立，Kubernetes控制平面的价值会从「容器编排」升级为「AI基础设施的操作系统」。

为什么这事值得你盯一眼

如果你在做AI平台的采购决策，或者正在把模型从实验室往生产环境搬，这个信号很明确：选基础设施时，「能跑起来」和「能一直跑下去」是两个完全不同的验收标准。

Red Hat的方案不是唯一解，但它把问题定义得很清楚——AI生产化的瓶颈不在算法，在工程。而工程问题的解法，往往藏在控制平面的设计里。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴