作者丨敏潇

编辑丨邱晓芬

7月4日,在2024年世界人工智能大会AI基础设施论坛上,「无问芯穹」联合创始人兼CEO夏立雪发布了大规模模型的异构分布式混合训练系统——千卡异构混合训练集群算力利用率最高达到了97.6%。

在论坛中,夏立雪指出,「无问芯穹」Infini-AI云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台。

该平台具备万卡扩展性,支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的大模型混合训练。7月起,通过试训申请的用户,能够在Infini-AI上一键发起700亿参数规模的大模型训练。

打开网易新闻 查看精彩图片

t图片来源:「无问芯穹」

今年3月,「无问芯穹」Infini-AI大模型开发与服务云平台首次进行公开测试。在此之前,智谱AI、月之暗面、生数科技等B端客户已能在Infini-AI上稳定使用异构算力。同时,20余家AI Native应用创业公司也在模型中持续调用各种预置模型API,以开发自身业务模型。

作为大模型生命周期中不可或缺的两个阶段,训练和推理均需要强大的计算资源支撑。与国际上模型层与芯片层“相对集中”的格局相比,中国的模型层与芯片层更具多样化和独特性。然而,大量的异构芯片也形成了“生态竖井”,不同硬件生态系统封闭且互不兼容,给用户带来一系列技术挑战。

打开网易新闻 查看精彩图片

t图片来源:「无问芯穹」

“生态竖井”的存在让大多数企业和开发者对此望而却步,即使算力集群众多,也难以实现有效的整合与利用。“生态竖井”不仅成为构建AI Native基础设施的最大难点,也是当前大模型行业面临“算力荒”的重要原因。

构建适应多模型与多芯片格局的AI Native基础设施,「无问芯穹」的底层解法是,提供高效整合异构算力资源的好用算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片转化为大算力。论坛中夏立雪表示,该技术工程化的初衷,是希望整合更多异构算力,以推高大模型技术能力的上限。同时,打通异构芯片生态,持续降低大模型应用落地成本。