打开网易新闻 查看精彩图片

Nvidia近期收购了Slurm工作负载管理器背后的开发商SchedMD,此举引发了AI行业高管和超级计算领域专家的广泛担忧。他们担心这家芯片巨头可能借助这一新地位,通过代码优先级排序或产品路线图决策,为自身硬件提供优待,从而压制竞争对手的芯片。

行业人士指出,问题的核心在于:Nvidia如今掌控了一款同样运行在AMD和英特尔等竞争对手硬件上的调度软件。路透社援引五位匿名消息人士的说法报道称,掌握工作负载调度软件的厂商,对竞争硬件在共享计算环境中的运行效率拥有相当大的影响力——无论其是否真的付诸实施。这五位消息人士中,三位来自AI行业,另外两位熟悉超级计算机的运营情况。

接受InfoWorld采访的分析师表示,Nvidia在收购公告中承诺"将继续以开源、供应商中立软件的形式开发和分发Slurm",但这样的承诺或许并不足以令人放心。

TechInsights半导体分析师Manish Rawat表示:"Slurm的开源基础虽然提供了透明代码、分叉能力和社区治理等保障机制,但SchedMD的控制权赋予了Nvidia的是软性影响力,而非强制性绑定。"他指出,Nvidia可以通过隐性方式左右产品路线图,优先推进有利于自身硬件的GPU感知调度和拓扑优化,而在集成时间线上,CUDA生态系统所获得的支持也明显快于AMD的ROCm或英特尔的oneAPI等替代方案,由此形成了他所描述的"最优支持路径效应"。

Slurm最初由劳伦斯利弗莫尔国家实验室开发,目前运行在全球约60%的超级计算机上。路透社报道称,该软件被Meta、法国AI初创公司Mistral以及Anthropic等主要AI企业用于AI模型训练的部分环节。用于天气预报和国家安全研究的政府超级计算机同样依赖于它。Nvidia于2025年12月完成了对SchedMD的收购,并将此次交易定位为强化开源生态系统、帮助用户在传统超级计算工作之外采用更新AI技术的战略举措。

美国AI硬件与数据中心咨询机构Fab Economics的首席执行官Danish Faruqui博士认为,上述风险确实存在。他表示:"外界对Nvidia可能在未来软件更新中优先支持自家硬件、进而拖慢或削弱对竞争对手支持力度的担忧,是一种合理的预期。"他指出,作为主要开发者,Nvidia如今掌控着Slurm的官方开发路线图和代码审查流程,"这可能影响竞争芯片在新功能开发或持续改进方面的集成速度"。

Faruqui还补充道,同时掌握控制平面、GPU以及InfiniBand等网络基础设施,使Nvidia得以构建一套高度垂直整合的技术栈,从而催生他所描述的"浅层护城河"——即高级功能仅在Nvidia硬件上可用或性能更优。

业内观察人士表示,一个具体的检验标准将是:与Nvidia将自身下一代硬件和InfiniBand等网络技术整合进Slurm代码库的速度相比,AMD下一代芯片获得支持的速度究竟有多快。

分析师将Nvidia 2022年收购Bright Computing一事作为参照案例,认为该软件在后续发展中逐渐向Nvidia芯片倾斜,令使用竞争硬件的用户处于不利地位。对此,Nvidia予以否认,称Bright Computing支持"几乎所有CPU或GPU加速集群"。

Rawat认为这一对比具有参考价值,但并不完全贴切。他表示:"Nvidia收购Bright Computing一事表明其对垂直整合的偏好——将Bright深度嵌入DGX和AI工厂技术栈,而非维持中立的多供应商编排角色。这折射出一种更深层的战略模式:Nvidia寻求掌控全栈AI基础设施体验。"

然而他也指出,Slurm带来的挑战在本质上有所不同。"Slurm深度嵌入超算中心和学术机构,并实际上受社区治理,迁移成本极高,"Rawat说,"Nvidia或许能够施加影响,但不太可能在这些由成熟、中立、社区驱动的平台主导的市场中复制同等程度的垂直整合控制。"

Faruqui承认,Slurm基于GNU GPL v2.0协议的开源许可提供了一定保护,包括在社区认为Nvidia的管理存在偏向时有权分叉该项目。但他同时警告,这一选择本身也存在风险。"Slurm的开源状态提供了一个有限度的安全阀,但并不能完全抵御厂商中立性遭受侵蚀的风险,"他说。

他还指出,此次收购将全球众多顶尖Slurm开发者纳入Nvidia麾下,这意味着社区主导的分叉项目将难以维持同等的开发迭代速度。

Rawat将当前局面定性为"战略依赖风险,而非危机",并建议各机构多元化GPU采购渠道,在多个厂商生态系统中对工作负载进行基准测试,同时培养内部技术能力,以便在必要时修改或更换编排工具。

Faruqui则建议,企业买家在谈判Slurm支持协议时,应争取适用于非Nvidia硬件的服务水平保障,涵盖响应时间、漏洞修复以及异构集群间的功能对等。在架构层面,他建议各机构考虑将AI工作负载容器化,以实现应用与底层调度器的解耦,从而在必要时更便捷地迁移至Flux或Kubernetes等替代调度方案。

Q&A

Q1:Nvidia收购SchedMD之后,Slurm还会保持对AMD和英特尔硬件的中立支持吗?

A:这正是业界最核心的担忧所在。Nvidia公开承诺将继续以开源、供应商中立的方式开发Slurm,但分析师认为该承诺存在局限。Nvidia可以在不修改开源许可证的情况下,通过路线图优先级、集成速度和功能优化等方式,隐性地向自家硬件倾斜。历史参照案例显示,Nvidia收购Bright Computing后,该软件被更深度地整合进Nvidia自有技术栈,对竞争硬件的支持相对弱化。

Q2:Slurm的开源许可证能否防止Nvidia的干预?

A:开源许可(GNU GPL v2.0)提供了一定保障,例如代码透明度和社区分叉权利,但并非万能。最大的风险在于,顶尖的Slurm开发者已随收购进入Nvidia,社区若要自行维护一个分叉版本,将面临严峻的人才和资源挑战,难以维持相同的迭代速度。分析师将其定性为"战略依赖风险",而非即时危机。

Q3:企业和超算机构应该如何应对这一潜在风险?

A:分析师给出了多项建议:一是多元化GPU采购,避免对单一厂商形成强依赖;二是在多个厂商生态系统中对工作负载进行基准测试;三是将AI工作负载容器化,降低对底层调度器的耦合度,便于未来切换至Flux或Kubernetes等替代方案;四是在签订Slurm支持协议时,明确要求对非Nvidia硬件提供同等的服务水平保障。