微软把Kubernetes调度器改了7处|azure|微软|知名企业|虚拟机|调度器|运维

去年KubeCon北美站，微软Azure容器团队还在讨论"AI工作负载怎么在云原生里找到位置"。8个月后，他们交出的答卷是：GPU调度、网络加密、多集群运维，全部塞进上游社区。这不是功能清单的堆砌，而是一场关于"AI基础设施如何像Kubernetes那样成熟"的实验。

从"能跑"到"敢跑"：GPU调度器的7个补丁

AI训练集群有个老毛病：调度器把GPU当普通资源分配，结果两个任务抢占同一张卡，显存溢出，训练中断。微软工程师Renaud Gaubert在博客中写道：「The fix is never just more capability; it's shared operational philosophy」——问题从来不是工具不够，而是缺乏共享的操作范式。

这次微软联合NVIDIA、Google等厂商，向Kubernetes上游提交了7项关键改进。最核心的是动态资源分配（DRA, Dynamic Resource Allocation）框架的落地：调度器现在能感知GPU的显存碎片、拓扑结构，甚至NVLink连接关系。换句话说，一个需要8张卡全互联的分布式训练任务，不会再被拆散到不同物理节点。

另一项是队列调度（Kueue）的集成。传统Kubernetes按"先到先得"分配资源，但AI工作负载有优先级：推理服务要实时响应，训练任务可以排队。Kueue引入了队列和抢占机制，集群利用率从平均35%提升到60%以上——这个数字来自微软内部Azure ML平台的实测。

调度器的改进只是第一层。真正让运维团队敢把生产负载搬上来的，是网络和安全层面的配套工程。

网络加密的"无感知"实验

Kubernetes集群规模扩大后，IP地址管理变成噩梦。服务网格（Service Mesh）能解决加密和观测，但Sidecar模式带来20-30%的性能损耗，AI推理延迟直接超标。

微软的选择是：把加密下沉到内核层。他们主导的EBPF（Extended Berkeley Packet Filter，扩展伯克利包过滤器）方案，在KubeCon欧洲站宣布进入Beta。技术细节很枯燥，效果很直白：节点间流量自动加密，无需应用改造，CPU开销控制在5%以内。

更隐蔽的改动是身份体系。AKS（Azure Kubernetes Service，Azure容器服务）现在支持SPIFFE/SPIRE标准，工作负载启动时自动获取加密身份，而非依赖静态证书。这意味着一个被入侵的Pod，无法冒充其他服务横向移动——这对多租户AI平台是刚需。

Gaubert提到一个细节：「A significant part of our upstream work this cycle has been building the primitives that make GPU-backed workloads first-class citizens」。这里的"first-class citizens"（一等公民）不是修辞。过去GPU是"外挂设备"，现在从调度、网络、存储到可观测性，全链路都有标准接口。

多集群运维：从"救火"到"编排"

单一Kubernetes集群的管理已足够复杂，但AI基础设施的现实是：训练集群在美国西部，推理集群在东南亚，边缘节点分布在工厂车间。微软的Fleet Manager服务试图回答一个问题：如何把100个集群当成1个来管？

核心机制是"策略即代码"。运维团队定义一次安全基线、网络拓扑或资源配额，Fleet Manager自动推送到所有关联集群，并报告漂移（Drift）情况。Gaubert没有给出具体客户案例，但提到一个场景：某金融客户的合规审计时间，从两周缩短到两小时——因为所有集群配置都有版本化的声明式记录。

存储层面的改动更偏向"修bug"。AI训练需要高吞吐并行文件系统，但Kubernetes的CSI（Container Storage Interface，容器存储接口）驱动 historically 对并发挂载支持不佳。微软贡献了针对Lustre和Azure Blob的优化，大模型检查点（Checkpoint）的写入速度提升了4倍。

这些改进的共同点：都不是Azure独占功能，而是优先提交给CNCF（Cloud Native Computing Foundation，云原生计算基金会）社区。微软的算盘很清晰——当"AI on Kubernetes"成为行业标准，AKS作为最成熟的托管服务，自然承接溢出需求。

开源策略的"防御性进攻"

把核心能力开源，听起来像做慈善。但Gaubert的表述透露了另一层考量：「AI infrastructure is still in the chaotic phase」。混乱意味着没有标准，没有标准意味着客户不敢all in任何单一云厂商。

微软的策略是加速标准化进程。当动态资源分配、EBPF加密、SPIFFE身份成为社区共识，客户迁移成本降低，但AKS的集成深度形成护城河。这是云计算时代的经典打法：开放协议，封闭实现。

一个值得注意的数据点：Azure ML平台现在管理的GPU算力，60%运行在AKS上，而非传统的虚拟机。这个比例在2024年初还不到30%。增长的动力，部分来自上述基础设施改进降低了"Kubernetes原生AI"的门槛。

KubeCon欧洲站的演示环节，微软工程师现场部署了一个175B参数模型的分布式训练任务。从提交到跨8节点启动，耗时47秒——去年同样的演示需要手动配置MPI Operator和节点亲和性规则，准备时间以小时计。

Gaubert在结尾写道：「The convergence of AI and Kubernetes infrastructure means that gaps in AI infrastructure and gaps in Kubernetes infrastructure are increasingly the same gaps」。这句话的潜台词是：两个领域的技术债正在合并，而微软打算一次性还清。

当训练集群的调度延迟从分钟级降到秒级，当网络加密不再意味着性能折损，多集群运维从"能跑"变成"好跑"——企业会把下一个大模型训练任务放在哪里？Azure的赌注是：答案已经不言而喻。