AI算力公司摩尔线程升级夸娥智算中心，支持万卡万亿参数通用算力｜直击WAIC 2024|ai算力|大模型|夸娥智算中心|张建中|摩尔线程|通用算力

摩尔线程创始人、CEO张建中（图片来源：摩尔线程）

7月4日-6日，2024世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）在上海召开。

在WAIC 2024期间，首次参展WAIC的国内 AI 算力方案公司“摩尔线程”，发布实现重要升级的其AI旗舰产品夸娥（KUAE）智算集群解决方案，从当前的千卡级别大幅扩展至万卡规模。

摩尔线程表示，这旨在打造国内领先的、能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台，专为万亿参数级别的复杂大模型训练而设计。

同时，摩尔线程还宣布联合中国移动青海公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司构建三个万卡集群项目进行战略签约，以构建国产GPU集群。

摩尔线程创始人、CEO张建中对钛媒体AGI等表示，当下Scaling Law（规律效应）法则在AI大模型行业依然奏效，即为了追求更好的性能，规模做大的同时，算力需求也越来越大，因此，国内百模大战仍在冲击更大的目标。

“在AI主战场，万卡是最低标配。”张建中表示。

据悉，当前国内 AI 大模型热潮持续“狂飙”，而训练模型背后的关键因子离不开GPU（图形处理器），各公司拥有GPU的数量已经成为衡量算力规模的基本依据。而 AI 算力已经成为国力，同时也是经济生产力。

2020年，OpenAI使用约1万块英伟达GPU来训练GPT-3.5模型，当时模型参数量达1750亿；到了2023年，OpenAI推出1.8万亿参数的GPT-4时，市场估测，其已经拥有近3万块英伟达GPU计算卡。如今，OpenAI具有微软提供的十万卡大训练集群和推理产品。

相比OpenAI、谷歌、Meta等国际巨头成批采购几十万张英伟达显卡搭建数据中心集群，国内整体达到万卡集群规模的模型较少，大多数还只能采购几千张计算卡，只有字节等少数头部厂商拥有上万张卡规模的算力集群。

张建中提到，计算卡的数量直接决定了训练一个大模型所用的时间。去年国内“百模大战”开打后，几乎每个月都有新的模型发布。而现在，一家AI大模型公司训练迭代一次大模型的时间已经缩短为两周，超过两周就跟不上同行的速度。

公开信息显示，摩尔线程成立于2020年10月，是一家以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的AI计算支持，创始人、CEO张建中曾担任英伟达全球副总裁、中国区总经理。

2023年12月，基于MTTS4000大模型智算加速卡，摩尔线程推出了以夸娥智算集群为核心的智算中心产品组合，以打造大模型和通用人工智能（AGI）的算力基础设施。

此次发布的摩尔线程夸娥（KUAE）万卡智算集群，以全功能GPU为底座，旨在打造国内领先的、能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台，专为万亿参数级别的复杂大模型训练而设计。

夸娥万卡智算解决方案拥有多个核心特性：具备超大算力，万卡万 P，单集群规模超万卡，浮点运算能力达 10Exa-Flops，GPU 显存总容量达 PB 级，卡间互联总带宽和节点互联总带宽也达每秒 PB 级，实现算力、显存和带宽的系统性协同优化；具有超高稳定性能，月级长稳训练，夸娥万卡集群平均无故障运行时间超 15 天，最长可实现大模型稳定训练 30 天以上，周均训练有效率在 99%以上，得益于自主研发的多级可靠机制；极致优化，MFU 最高可达 60%，通过系统软件、框架、算法等层面的一系列优化实现高效率训练；还是一个全能通用的生态友好平台，计算能力为通用场景设计，可加速不同架构、不同模态的大模型，基于 MUSA 编程语言、兼容 CUDA 能力和自动化迁移工具 Musify，加速新模型迁移，实现生态适配“Instant On”。

眼下，对于AI公司来说，谁有GPU，谁能建智算中心，才能训练性能更强、更大规模的模型技术。

但在张建中看来，智算中心从千卡到万卡，不只是简单的“堆卡”。规模变大的同时，难度也呈指数级倍增——既要实现智算中心扩容，也要兼顾质量。这对厂商而言是一项极其复杂的系统工程。尤其算力利用率与稳定性是行业衡量智算中心质量的两项重要指标。

谈到短期资本和长期的智算中心和企业构建之间的冲突，张建中对钛媒体AGI坦言，这是一个投资回报的问题。目前智算中心投资回报率是5年左右，大家能看得到，根据市场的租金、使用率以及用户愿意付的价钱，这个很正常，而且资本愿意去看5年回报周期，对资本投资来说是很高的，相对来讲是很满意的，相信一定会有很多资金在当中发挥更多的作用。

“对于我们研发一颗卡来说，其实我们卡的研发费用相对美国公司来说还是非常便宜的，我们大概相当于他们的1/10，我们在国内可以得到更好的回报。反而在美国的费用更高，回报周期相对更长，我相信在国内发展潜力是非常巨大的。”张建中表示。

目前，摩尔线程的千卡智算中心的算力利用率已达到50%，未来推动万卡集群智算中心落地时，目标是达到60%的算力利用率，同时保证99%以上的稳定性。这与国际巨头已十分接近，但要达到领先仍存在较大挑战。

张建中表示，“我相信AGI一定会到来。随着各种不同算法进步，真正算力平台应用场景的建设，越来越多的大模型应用场景能得到验证。之前没有万卡集群的时候，只是在千卡上面，有些模型无法训练出来。当万卡建起来，Scaling（扩展性）往上走，准确度、精度、IQ能力都在提升的话，有了实际价值，就会建下一个。这是一个逐步提升的过程，不可能今天我们直接建百万卡集群，在建百万卡集群之前一定有10万卡，在10万卡集群之前，肯定有1万卡的集群，这是一个逐步实现的过程。”

摩尔线程表示，这一里程碑式的进展，树立了国产GPU技术的新标杆，有助于实现国产智算集群计算能力的全新跨越，将为中国人工智能领域技术与应用创新、科研攻坚和产业升级提供坚实可靠的关键基础设施。

“夸娥是一个通用加速的计算平台，我们的目标也是希望通过夸娥智算集群，以规模够大、计算更通用、生态兼容好的加速计算平台，为美好世界加速。我们希望摩尔线程的全功能GPU，能够服务产业能够为人类造福，把好的技术、好的算力应用到对人类和社会更加友好的应用当中，也希望我们的产品为国家解决算力短缺的问题，也希望在座每一位合作伙伴与摩尔线程携手，基于夸娥智算集群，真正做到万卡一芯、万众一芯，打造美好世界。”张建中在演讲结尾表示。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）