打开网易新闻 查看精彩图片

去年KubeCon北美站,微软Azure容器团队还在讨论"AI工作负载怎么在云原生里找到位置"。8个月后,他们交出的答卷是:GPU调度、网络加密、多集群运维,全部塞进上游社区。这不是功能清单的堆砌,而是一场关于"AI基础设施如何像Kubernetes那样成熟"的实验。

从"能跑"到"敢跑":GPU调度器的7个补丁

从"能跑"到"敢跑":GPU调度器的7个补丁

AI训练集群有个老毛病:调度器把GPU当普通资源分配,结果两个任务抢占同一张卡,显存溢出,训练中断。微软工程师Renaud Gaubert在博客中写道:「The fix is never just more capability; it's shared operational philosophy」——问题从来不是工具不够,而是缺乏共享的操作范式。

这次微软联合NVIDIA、Google等厂商,向Kubernetes上游提交了7项关键改进。最核心的是动态资源分配(DRA, Dynamic Resource Allocation)框架的落地:调度器现在能感知GPU的显存碎片、拓扑结构,甚至NVLink连接关系。换句话说,一个需要8张卡全互联的分布式训练任务,不会再被拆散到不同物理节点。

另一项是队列调度(Kueue)的集成。传统Kubernetes按"先到先得"分配资源,但AI工作负载有优先级:推理服务要实时响应,训练任务可以排队。Kueue引入了队列和抢占机制,集群利用率从平均35%提升到60%以上——这个数字来自微软内部Azure ML平台的实测。

调度器的改进只是第一层。真正让运维团队敢把生产负载搬上来的,是网络和安全层面的配套工程。

网络加密的"无感知"实验

网络加密的"无感知"实验

Kubernetes集群规模扩大后,IP地址管理变成噩梦。服务网格(Service Mesh)能解决加密和观测,但Sidecar模式带来20-30%的性能损耗,AI推理延迟直接超标。

微软的选择是:把加密下沉到内核层。他们主导的EBPF(Extended Berkeley Packet Filter,扩展伯克利包过滤器)方案,在KubeCon欧洲站宣布进入Beta。技术细节很枯燥,效果很直白:节点间流量自动加密,无需应用改造,CPU开销控制在5%以内。

更隐蔽的改动是身份体系。AKS(Azure Kubernetes Service,Azure容器服务)现在支持SPIFFE/SPIRE标准,工作负载启动时自动获取加密身份,而非依赖静态证书。这意味着一个被入侵的Pod,无法冒充其他服务横向移动——这对多租户AI平台是刚需。

Gaubert提到一个细节:「A significant part of our upstream work this cycle has been building the primitives that make GPU-backed workloads first-class citizens」。这里的"first-class citizens"(一等公民)不是修辞。过去GPU是"外挂设备",现在从调度、网络、存储到可观测性,全链路都有标准接口。

打开网易新闻 查看精彩图片

多集群运维:从"救火"到"编排"

多集群运维:从"救火"到"编排"

单一Kubernetes集群的管理已足够复杂,但AI基础设施的现实是:训练集群在美国西部,推理集群在东南亚,边缘节点分布在工厂车间。微软的Fleet Manager服务试图回答一个问题:如何把100个集群当成1个来管?

核心机制是"策略即代码"。运维团队定义一次安全基线、网络拓扑或资源配额,Fleet Manager自动推送到所有关联集群,并报告漂移(Drift)情况。Gaubert没有给出具体客户案例,但提到一个场景:某金融客户的合规审计时间,从两周缩短到两小时——因为所有集群配置都有版本化的声明式记录。

存储层面的改动更偏向"修bug"。AI训练需要高吞吐并行文件系统,但Kubernetes的CSI(Container Storage Interface,容器存储接口)驱动 historically 对并发挂载支持不佳。微软贡献了针对Lustre和Azure Blob的优化,大模型检查点(Checkpoint)的写入速度提升了4倍。

这些改进的共同点:都不是Azure独占功能,而是优先提交给CNCF(Cloud Native Computing Foundation,云原生计算基金会)社区。微软的算盘很清晰——当"AI on Kubernetes"成为行业标准,AKS作为最成熟的托管服务,自然承接溢出需求。

开源策略的"防御性进攻"

开源策略的"防御性进攻"

把核心能力开源,听起来像做慈善。但Gaubert的表述透露了另一层考量:「AI infrastructure is still in the chaotic phase」。混乱意味着没有标准,没有标准意味着客户不敢all in任何单一云厂商。

微软的策略是加速标准化进程。当动态资源分配、EBPF加密、SPIFFE身份成为社区共识,客户迁移成本降低,但AKS的集成深度形成护城河。这是云计算时代的经典打法:开放协议,封闭实现。

一个值得注意的数据点:Azure ML平台现在管理的GPU算力,60%运行在AKS上,而非传统的虚拟机。这个比例在2024年初还不到30%。增长的动力,部分来自上述基础设施改进降低了"Kubernetes原生AI"的门槛。

KubeCon欧洲站的演示环节,微软工程师现场部署了一个175B参数模型的分布式训练任务。从提交到跨8节点启动,耗时47秒——去年同样的演示需要手动配置MPI Operator和节点亲和性规则,准备时间以小时计。

Gaubert在结尾写道:「The convergence of AI and Kubernetes infrastructure means that gaps in AI infrastructure and gaps in Kubernetes infrastructure are increasingly the same gaps」。这句话的潜台词是:两个领域的技术债正在合并,而微软打算一次性还清。

当训练集群的调度延迟从分钟级降到秒级,当网络加密不再意味着性能折损,多集群运维从"能跑"变成"好跑"——企业会把下一个大模型训练任务放在哪里?Azure的赌注是:答案已经不言而喻。