最前线｜「无问芯穹」发布千卡规模异构芯片混训平台，筑基面向MxN生态格局的AI Native基础设施|ai|native|人工智能技术|大模型|异构|无问芯穹|混训平台

作者丨敏潇

编辑丨邱晓芬

7月4日，在2024年世界人工智能大会AI基础设施论坛上，「无问芯穹」联合创始人兼CEO夏立雪发布了大规模模型的异构分布式混合训练系统——千卡异构混合训练集群算力利用率最高达到了97.6%。

在论坛中，夏立雪指出，「无问芯穹」Infini-AI云平台已集成大模型异构千卡混训能力，是全球首个可进行单任务千卡规模异构芯片混合训练的平台。

该平台具备万卡扩展性，支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的大模型混合训练。7月起，通过试训申请的用户，能够在Infini-AI上一键发起700亿参数规模的大模型训练。

t图片来源：「无问芯穹」

今年3月，「无问芯穹」Infini-AI大模型开发与服务云平台首次进行公开测试。在此之前，智谱AI、月之暗面、生数科技等B端客户已能在Infini-AI上稳定使用异构算力。同时，20余家AI Native应用创业公司也在模型中持续调用各种预置模型API，以开发自身业务模型。

作为大模型生命周期中不可或缺的两个阶段，训练和推理均需要强大的计算资源支撑。与国际上模型层与芯片层“相对集中”的格局相比，中国的模型层与芯片层更具多样化和独特性。然而，大量的异构芯片也形成了“生态竖井”，不同硬件生态系统封闭且互不兼容，给用户带来一系列技术挑战。

t图片来源：「无问芯穹」

“生态竖井”的存在让大多数企业和开发者对此望而却步，即使算力集群众多，也难以实现有效的整合与利用。“生态竖井”不仅成为构建AI Native基础设施的最大难点，也是当前大模型行业面临“算力荒”的重要原因。

构建适应多模型与多芯片格局的AI Native基础设施，「无问芯穹」的底层解法是，提供高效整合异构算力资源的好用算力平台，以及支持软硬件联合优化与加速的中间件，让异构芯片转化为大算力。论坛中夏立雪表示，该技术工程化的初衷，是希望整合更多异构算力，以推高大模型技术能力的上限。同时，打通异构芯片生态，持续降低大模型应用落地成本。