全球首个千卡规模异构芯片混训平台发布！无问芯穹：让天下没有难用的AI算力|ai|人工智能技术|无问芯穹|混训平台|算力|算法

智东西
作者 ZeR0
编辑漠影

“打开水龙头前，我们不需要知道水是从哪条河里来的。同理，未来我们用各种AI应用时，也不会知道它调用了哪些基座模型，用到了哪种加速卡的算力——这就是最好的AI Native基础设施。”

这样的AI Native基础设施，需要大家共同构建。7月4日，在2024年世界人工智能大会AI基础设施论坛上，无问芯穹联合创始人兼CEO夏立雪发布了全球首个千卡规模异构芯片混训平台，千卡异构混合训练集群算力利用率最高达到97.6%。

同时，夏立雪宣布无问芯穹Infini-AI云平台已集成大模型异构千卡混训能力，是全球首个可进行单任务千卡规模异构芯片混合训练的平台，具备万卡扩展性，支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的大模型混合训练。

从7月起，通过试训申请的用户，可以在Infini-AI上一键发起700亿参数规模的大模型训练。

就在4个月前，无问芯穹Infini-AI大模型开发与服务云平台宣布首次公测，智谱AI、月之暗面、生数科技等大模型公司客户已在Infini-AI上稳定使用异构算力，还有20余家AI Native应用创业公司在Infini-AI上持续调用各种预置模型API，使用无问芯穹提供的工具链开发自身业务模型。

此次发布全球首个可进行千卡规模异构芯片混训的平台，不仅是无问芯穹在异构计算优化与集群系统设计方面的技术实力体现，同时也是无问芯穹秉承“MxN”中间层生态理念的重要成果。

无问芯穹率先构建了“MxN”中间层的生态格局，实现多种大模型算法在多元芯片上的高效、统一部署。

Infini-AI平台已支持Qwen2、GLM4、Llama 3、Gemma、Yi、Baichuan2、ChatGLM3系列等共30多个模型和AMD、华为昇腾、壁仞、寒武纪、燧原、海光、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡，既支持单一算法与芯片的一对一连接，又支持多种模型和多种芯片的自由搭配和组合。

据夏立雪透露，预计到今年年底，无问芯穹会完整实现模型到芯片的M×N自动路由。

一、万卡集群是大模型兵家必争之地，国内面临生态打通难题

无问芯穹联合创始人兼CEO夏立雪认为，算力是AI发展的前哨和基石。GPT-4之后出现的模型规模没有进一步指数增长，背后支撑算法所需的算力遇到了瓶颈，目前无人能实现更大规模、更大单个模型计算量的大系统，这使得模型发展进入了放缓和停滞的状态，或者说，支撑模型能力迈向下一代的算力系统还需要研发和构建。

大模型在Scaling Law的作用下进行全球范围内算力的竞赛。有报道称，微软和OpenAI在构建一个超过1000亿美金的大算力项目。相比其他很多技巧来说，这种简单粗暴的规模扩张，带来了最切实际的模型智能性的回报。谷歌、OpenAI以及国内的大厂和三大运营商都在构建万卡规模的大集群。

在真正的可持续迭代的、大的、稳定的系统中，Scaling Law有独特的优点，没有那么多丰富的技巧，更便于进行维护和扩展。对于一个真正长期要运行的系统来说，可扩展是非常重要的属性，可扩展的系统才是好系统。

IDC图表显示，全球范围内未来AI推演和训练的算力需求呈高速发展的状态，训练和推理均需要强大的计算资源支撑。这个庞大市场背后的国内外生态差异很大。国外生态模型层和芯片层的格局相对集中，中国生态是相对分散和生机勃勃的状态，模型层、芯片层都在竞向扩展算力市场，面临很多生态打通的关键问题。

万卡集群是大模型的兵家必争之地。夏立雪分享说，现在国内有100多个千卡集群在建设或计划建设，其中大部分的集群都是异构算力，很多集群在使用不同的芯片服务和从事AI生产。原因包括过度依赖单一硬件平台可能产生供应链风险、国产芯片的性能快速提升为集群方提供了多种选择等。

然而，大量的异构芯片也形成了“生态竖井”，不同硬件生态系统封闭且互不兼容，软件栈不能很好地协调和打通，算力使用面临一系列非常复杂的工程挑战。即便算力集群众多，仍难以实现有效的整合与利用，这是对算力资源的浪费，不仅成为构建AI Native基础设施的最大难点，也是当前大模型行业面临“算力荒”的重要原因。

无问芯穹想构建一个能适配中国多模型与多芯片生态格局的AI Native基础设施，提供高效整合异构算力资源的好用算力平台，以及支持软硬件联合优化与加速的中间件，打破现有“生态竖井”，让异构芯片和集群真正转化为大算力。

AI的训练推理任务和传统的计算有很大的差异，比如单任务会很大并且很突发，所以如果不做一个更AI Native的调度策略，会使整个系统的资源利用率非常低，甚至导致客户任务经常挂掉重启，进而耽误AI发展进程。

无问芯穹的解决方案在底层有完善的云管系统，包括调度能力以及PaaS和MaaS平台。下面相当于是云端协同的算力底座，能让大模型的开发者和研究者拎包入住，快速把不同算力用起来。

在这基础上构建的MaaS的服务平台，也就是模型集服务的平台，可提供很多灵活应用的大模型服务，来帮助一些还在AI学习期的企业敏捷开发一些大模型大规模应用。

二、实现不同芯片交叉混训，降低大模型应用落地成本

一系列产研进展背后，无问芯穹研发团队在异构芯片计算优化与集群系统设计上有非常多的实践经验与成果。

近日，无问芯穹与清华、上交的联合研究团队发布了一个用于大规模模型的异构分布式混合训练系统HETHUB。这是业内首次实现六种不同品牌芯片间的交叉混合训练，且工程化完成度高。据夏立雪介绍，这项技术工程化的初衷是希望能够通过整合更多异构算力，继续推高大模型技术能力的上限，同时通过打通异构芯片生态，持续降低大模型应用落地成本。

他谈道，该系统在构建中面临的两大主要挑战是通信和分布式训练。不同硬件架构的通信库不同，相当于让两个人使用完全不同的语言来配合完成一个大工程；异构卡出于不同的设计理念，会有很多性能差异，适配不同的任务，导致多种不同类型的卡展现出的效率差异会使大规模分布式训练变得低效。

因此，其团队做了很多方面的工作，包括：

1、通信方面，建立通用的集合通信库，实现不同种芯片的高效通信，兼容非常多种类的硬件；

2、提出了基于流水线并行的非均匀拆分方案，解决不同硬件效率不一样的问题，针对自身情况分配最适合的任务；

3、自研混训预测工具，能在训练最开始的阶段就提前预测好每个芯片会发挥什么样的价值，从而找到一个最优的拆分策略，完成整个训练任务在不同卡上形成最高效的配合。

从实际混训的效果来看，无问芯穹做得非常多的组合可达到70%以上，算力利用率最高可达到97.6%，6种不同组合芯片上的混训做到了千卡规模。

此前无问芯穹实现的是M×N的推理，现在实现了M×N的训练，这是一个非常大的突破。

这样的功能被集成到现有的无问芯穹Infini-AI平台上。该平台具备让使用者们能够高效在平台上部署应用和服务的能力，加入混训能力后，可支持6种品牌的交叉组合，打破单一品牌的训练瓶颈，是全球首个支持千卡异构混训的平台。

Infini-AI上层支持的多种训练策略包括张量并行、数据并行还有通信的overlap，可实现高效训练，能够支持700亿以上token的大模型训练，以及大规模模型的一键混训。使用该平台，开发者不用花更多的时间考虑底层的算力差异，在不同芯片构成的混合集群上可以快速定制自己的大模型，快速落地自己的业务。

三、高效调度+高效容错，保障在大算力集群上任务稳定跑完

构建大算力集群后，面临的一个核心任务是怎么用起来？这涉及高效调度问题。高效的算力调度系统能让整合的异构资源被所有用户更好利用。

无问芯穹在算力高效调度系统方面取得了很多进展，多异构集群的统一管理可支持十种以上的芯片，建设超过万卡级的算力系统，而且通过无问芯穹一系列混合调度的策略设计，使得平均任务调度的延迟在毫秒级，整个系统集群资源利用率能保持在90%以上。通过把整个AI容器的基座增强，无问芯穹在多租户场景下，整个集群的SLO可以提升到99.95%，可容性非常高。

除了调度外，在做模型训练时，不能让训练不断重启。无问芯穹开发了高效容错训练系统，包括针对大模型容错运行时系统、混合指标异常预测系统、检查点异步读写系统。