国产万卡系统“很难但很必要”|万卡系统|大模型|摩尔

众所周知，大模型去年还是百亿级参数，今年就干到了千亿级，而AI算力去年才出现的千卡集群，今年已然成了大厂标配，并将很快迎来万卡时代。

攒算力这个事，大厂小厂是各显神通。全世界的AI大厂都在疯狂囤N卡，也有亚马逊、特斯拉、微软这样的巨头在自研芯片，国内大中小厂都在寻找国产AI算力的替代方案。

毕竟H100、A100再强，阉割两次后——只比国产单卡的性能强一丢丢，主要还是CUDA这个庞大的软件生态托底。

留给国产AI算力的机会，就在千卡以上的集群，以及背后的软件生态了。正像中国工程院院士郑纬民所说：“构建国产万卡系统，虽然很难，但很必要。人工智能的模型研发、模型训练、模型精调、模型推理都需要算力，算力存在于大模型生命周期的每一环。”

在日前举办的中国移动算力网络大会上，郑纬民指出：“国产AI芯片虽存在差距，但如果生态做好了，大多数任务不会因为芯片性能的微小差异而有明显感知。别人要用1万块卡，我们用9000块卡就可以了。”

华为和摩尔线程，可用的国产千卡集群

万卡集群是远方和田野，做好千卡集群才是眼前的生活。目前，国内具备部署全国产AI千卡集群的公司只有华为和摩尔线程这两家。

华为在去年发布达芬奇架构的昇腾AI计算集群——Atlas900 SuperCluster，据了解该AI集群支持超万亿参数的大模型训练，采用全新的智算交换机以及超节点架构。在软件生态层面，华为推出了openEuler开源OS以及配套的数据库、中间件，涵盖从硬件、架构、框架、应用、开发运维工具等全产业链条，成为国产AI芯片的一支生力军。

如果说华为是国产AI专用芯片的代表，摩尔线程作为GPU芯片头部创企，则是有望在功能上对标英伟达。

摩尔线程推出全国产千卡千亿模型训练平台——摩尔线程夸娥智算集群，可以为大模型训练提供算力支撑。以全功能GPU为算力底座，摩尔线程夸娥提供从卡（MTT S4000）、服务器（MCCX D800）到千卡集群（K1、K2、K3）的完整智算产品组合，通过软硬一体化的服务，将成为大模型企业的选择之一。摩尔线程已经布局了从硬件集群、集群管理调度平台到大模型服务等软硬一体的全栈集群解决方案，具备了千卡甚至万卡的集群能力。

端到端的千卡万卡集群

中国工程院院士郑纬民在“中国移动算力网络大会”上，强调了全栈软硬件一体化的重要性。

他认为国产算力支撑大模型训练，国产软件生态需要做好几件事：支持PyTorch 、TensorFlow等编程框架，多机多卡下的并行加速，跨机跨卡的通讯库，以及算子库、编译器、编程语言、调度器。

以摩尔线程的夸娥千卡集群为例，国产AI算力正在从GPU显卡到服务器，最后组成集群，包括了硬件的网络、存储、软件，再到大模型调度，实现了全栈式的工程、端到端的交钥匙方案。

科技边角料获悉，夸娥智算集群全栈方案有8大特性：

1）模型覆盖：目前，摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等业界主流大模型的训练和微调。

2）主流生态兼容，包括CUDA：摩尔线程代码移植Musify工具，可快速将现有的主流迁移至MUSA，零成本完成CUDA代码自动移植。此外，借助摩尔线程元计算统一系统架构MUSA，用户可以复用PyTorch开源社区的大量模型算子。

3）断点续训：可以实时监测训练任务集群，分钟级发现故障并自动恢复训练；框架集成检查点（checkpoint）备份及恢复；支持检查点百GB数据秒级写入存储，以及快速读取恢复训练；千卡集群每日故障是常态，从日均4小时左右发现和解决问题降低到10分钟以内。综合提升训练效率15%-50%之间。

4）大模型语言分布式训练：分布式并行计算是实现AI大模型训练的关键手段。摩尔线程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架，且针对高效通信计算并行和Flash Attention做了额外优化。

5）推理加速：包含四个部分KUAE-ModelStudio、MUSA Serving 、MT Transformer 、TensorX，包含了大语言模型开放工具、推理服务软件、分布式推理加速框架。

6）高性能通信：MT-Link高速片间互联，支持2、4、8卡节点内互连、支持PCIe和MT-Link链路带宽聚合、支持摩尔线程自研MCCL集合通讯库，针对GPU卡的集合通讯性能提升、MT-Link带宽 112GB/s、支持双环拓扑结构，支持典型的ring allreduce算法通讯。

7）高性能存储：夸娥支持RDMA-网络支持存储数据经RDMA网络读写，读写带宽可提升到 720Gbps；支持GPU Direct Storage-基于 MT SmartIO，支持 GPU 直接与存储设备进行数据传输，吞吐量提升50%以上，时延降低75%。大规模训练下降低训练耗时约 28 个小时；每存储单元读取性能 90GB/s，写入性能 50GB/s，可横向扩容。

8）集群可靠性与性能：支持万卡以上大规模GPU集群可靠、高性能运行。内置软硬件全栈运行时打点，能高效获取服务器、GPU、集合通信组件、RDMA网络、异构架构、分布式训练任务等状态数据采集，无人值守的连续训练时长大于30天。