128卡死磕英伟达72卡，阿里平头哥放大招|72卡|gpu|英伟达|阿里巴巴集团

2026年5月20日，杭州。2026阿里云峰会现场，阿里巴巴投下了一枚算力领域的重磅炸弹——基于平头哥新一代训推一体AI芯片“真武M890”的128卡超节点服务器正式发布，搭载自研ICN Switch 1.0互联芯片，通信时延低至百纳秒级，128张AI芯片能够如同一台计算机般协同运行。

这不是一场普通的硬件发布会。就在几个小时前，阿里云资深副总裁刘伟光用一句话定下了基调：“进入Agentic时代，阿里云已全栈就绪。”

起底“真武M890”，性能对标谁？

真武M890的真容，足以让国内AI圈为之侧目。这款芯片内置144GB显存，片间互联带宽达到800GB/s，性能据称是前代产品真武810E的3倍，原生支持FP32到FP4等多种数据精度，覆盖高精度训练到超低精度推理的全场景。

对照前代产品真武810E——2026年1月亮相，配备96GB HBM2e显存，片间互联带宽700GB/s，整体性能已与英伟达H20相当——M890在显存容量上直接提升了50%，带宽也跃升了14%。仅前代已达H20水平，M890这代“3倍性能”的目标指向谁，不言自明。

值得注意的是，平头哥并未效仿英伟达将HBM与GPU裸片合封的主流方案，而是另辟蹊径，将显存与计算单元分离封装——这在架构上更加激进，也意味着更大的工程挑战。这种做法究竟是扬长避短，还是在制造工艺受限下的被迫创新？

答案或许只有平头哥自己知道，但有一点可以确认：当同行都在比拼单卡算力的单维竞赛时，真武M890瞄准的是系统层面的“整体算力”超越。

而配合ICN Switch 1.0互联芯片，真武M890可实现64卡全带宽互联，显著提升大规模智算集群计算的效率与稳定性。128卡超节点服务器的整体架构，正是以ICN Switch 1.0为中枢，将128颗M890芯片绑成一个逻辑统一的计算节点，彻底改变了传统“堆服务器+跨节点网络”的低效模式。

为什么128卡“组队”比堆1000卡更有用？

在传统数据中心架构中，跨服务器的芯片通信需要经过CPU、内存、网卡乃至交换机多次“中转”，时延动辄微秒甚至毫秒级别。当你在一个大模型训练任务中频繁调用数千乃至上万颗芯片时，通信瓶颈造成的算力闲置可达50%以上。

超节点技术的核心革命在于：将Scale-up（纵向扩展）代替Scale-out（横向扩展）。通俗地讲，不是让你拉更多“人”来干活，而是让同样一群人之间的沟通效率提升十倍。

真武M890的128卡超节点，通过ICN Switch 1.0实现了百纳秒级的芯片间通信时延，意味着128颗芯片在逻辑上被视为一个单一计算节点，跨芯片的分布式训练通信开销被压缩到几乎可以忽略的程度。

从技术演进趋势看，全球AI基础设施竞争已进入芯片+Scale-up网络的双战场。AI芯片厂商的竞争维度，正在从单一的芯片算力性能比拼，全面延伸至芯片与Scale-up网络协同能力的较量。换句话说，谁能做出好芯片很重要，但谁能把更多芯片高效“绑”在一起协同工作，才是下一阶段的终极命题。

IDC数据显示，截至2026年Q1，真武PPU芯片累计出货量已突破60万片，在国内AI芯片厂商中跃居第二，仅次于华为昇腾。这个数据揭示了一个令人震惊的事实：阿里平头哥已不再仅仅是一个“追赶者”，而是国产AI芯片阵营中可与华为掰手腕的实力玩家。

从产品发布时间线来看，平头哥在2026年1月才发布真武810E，仅隔4个月就拿出性能翻3倍的M890，这种迭代速度在国内AI芯片领域堪称罕见。更令人侧目的是平头哥首次公开的未来路线图：2027年Q3发布真武V900（性能再翻三倍），2028年Q3发布真武J900。这意味着在未来两年多的时间里，平头哥将保持平均不到一年一次大迭代的节奏。

国产算力“修罗场”

放眼全球，超节点市场的混战已进入白热化阶段。

英伟达凭借NVLink技术占据先发优势。从2024年的GH200 NVL72到2025年的GB200/GB300 NVL72，英伟达已建立起72 GPU/机柜的标准化超节点方案。其NVLink 5 Switch实现了GPU到GPU带宽1800GB/s，可构建72 GPU的NVLink域，总带宽达130TB/s。

而这家芯片巨头还在继续提速——未来规划中的Rubin Ultra NVL576将进一步将互联GPU数量从72颗扩展至576颗，意欲在Scale-up规模的“军备竞赛”中继续领跑。

而华为的表现同样令人震撼。2025年3月，华为将384颗昇腾芯片通过高速互联总线连接，推出了昇腾384超节点Atlas 900 A3 SuperPoD，性能指标超过了英伟达NVL72系统。

更令人震惊的是，华为又公布了未来的超节点规划：Atlas 950超节点将基于8192颗昇腾950DT芯片打造，由160个机柜组成，FP8算力达到8E FLOPS，互联带宽达到16PB/s。

在超节点容量上，国产厂商之间的“军备竞赛”尤为激烈。根据公开信息，华为的昇腾384、阿里的磐久AL128、中科曙光的scaleX640三大国产超节点方案形成了错位竞争的格局：华为走“以网联算”的垂直路线，阿里走软硬协同全栈优化的路线，中科曙光则走全栈开放架构路线。当前，华为已稳坐国内第一把交椅，阿里紧随其后攀升至第二。

然而，必须直面一个事实：国产AI芯片单卡算力落后于英伟达，仍然是公开的短板。AI大模型对算力的爆炸式需求，使得单芯片的角色在持续弱化，取而代之的是集群算力的竞争。

正因如此，超节点技术对于国产算力而言，不仅是一次创新的弯道超车，更是在单芯片短板制约下不得不做出的战略选择。本质上，这是国产AI芯片在制造工艺暂时受限的现实困境中，通过系统架构创新来弥补单卡差距的无奈之举——也是唯一能走通的路。

从阿里真武M890的优势来看，144GB显存与通义千问大模型的深度协同优化无疑是一张王牌。作为全球AI大模型调用量第一的通义千问（Qwen3.6Plus以4.6万亿Token的周调用量居全球第一），阿里在模型侧拥有其他国产厂商难以企及的丰富应用场景和真实负载经验。这种“芯片-模型-推理”全链路闭环的能力，是阿里在超节点竞赛中不可忽视的核心竞争力。

谁在吃肉？谁在喝汤？

超节点技术的崛起正深刻地重塑整个AI算力产业链。

从供给侧来看，超节点正以“密度集成、高速互联”的核心优势，彻底打破过去“堆服务器扩算力”的旧模式。据IDC预测，2025年中国智能算力规模将达到1037.3EFLOPS，到2028年将增长至2781.9EFLOPS。

这一轮产业升级，让产业链上的多个环节迎来了价值重估：

交换机芯片厂商无疑是最大受益者之一。Scale-up网络的兴起使得数据中心的交换机需求暴增，国内盛科通信、华为海思等交换芯片厂商迎来新一轮需求释放。

ODM厂商也进入了业绩兑现期。浪潮信息、中科曙光、中兴通讯等整机集成商凭借深厚的系统集成能力，正在收割超节点服务器的结构性红利。

液冷散热等配套技术领域同样迎来了爆发。高密度超节点产生的热量是传统服务器的数倍，单相浸没式液冷等技术已从“可选项”变为“必选项”。阿里磐久AL128采用了单相浸没式液冷技术，使PUE可低至1.09。华为Atlas 950超节点则为全光互联方案设计了配套的液体冷凝技术。

东兴证券在其研报中明确表示：当前全球超节点竞争格局尚未确立，AI芯片厂商的竞争已从芯片算力延伸至芯片+Scale-up网络的双战场。在这片尚未形成寡头垄断的“蓝海”中，谁能率先打通从芯片设计、互联技术到应用适配的全链路技术壁垒，谁就有可能抢占中国超节点市场的定价权和生态主导权。

然而，风光背后也有隐忧。技术路线分化日益成为制约行业发展的一大风险——华为采用自研总线加光互联、阿里押注ICN Switch交换芯片、曙光走全栈开放架构，各家之间的互不兼容可能阻碍国产AI生态的规模化发展。超节点的出现，确实将算力竞争从单一变量变成了多变量协同——互联、软件、整机、RAS共同决定系统能交付多少有效算力。但这也意味着，如果各家厂商的软件栈无法兼容，整个国产AI行业可能面临“各自为战”的碎片化困境。