2026年6月23日,德国汉堡,国际超级计算大会ISC2026现场。当新一期全球超算TOP500榜单公布的那一刻,全场目光都聚焦在一个名字上——“灵晟(LineShine)”。

这台来自国家超级计算深圳中心的超级计算机,以2.19EFlops的持续双精度浮点性能,直接登顶全球第一。什么概念?2.19EFlops,就是每秒219亿亿次计算。

更直白一点:央视给出的类比是,灵晟1秒钟的运算量,相当于全球70亿人每人每秒算一次、不吃不睡连续算十年。普通家用电脑要跑完它一天的计算任务,得花几十万年。

中国超算,时隔九年,重回世界第一。

打开网易新闻 查看精彩图片

为此,海外科技媒体 NextPlatform 依托公开披露信息与官方发布的技术论文,对灵晟(LineShine)超算的技术架构路线展开了全面深度解析。

原文翻译如下:

距离中国高性能超算登顶高性能林帕克(HPL)性能榜单榜首,已经过去九年。但众所周知,中国早在美国之前就突破了 64 位精度百亿亿次(Exaflop)算力门槛,而且依靠两套完全不同的超算系统实现了这一目标。中国并未大肆宣扬此事,却向美国业内专家释放了足量信息,相关消息也因此流传开来。

具体来说,部署于青岛国家超算中心的神威・海洋之光是国内首台达成百亿亿次门槛的系统。nextplatform最早在 2021 年 2 月就提及这台超算,并在 2022 年 3 月深度拆解过它的架构。整套海洋之光搭载神威 SW26010-Pro 处理器,共计 4193 万计算核心;理论峰值算力、HPL 实测 1.22 千万亿次(Petaflop),据传整机于 2021 年 3 月正式上线运行。

另一套天河三号采用飞腾 2000 Arm 通用处理器 + 矩阵 3000 DSP 协处理器的异构架构,理论峰值算力约 2.05 Exaflop,HPL 实测性能约 1.57 Exaflop。2021 年 10 月,广州国家超算中心率先上线天河三号初期版本,当时性能并未拉满;完整配置版本直至 2023 年 12 月才达到上述满配算力指标。而早在 2021 年末,仅搭载老款矩阵 2000 DSP 协处理器的天河三号原型机,HPL 实测算力就达到 1.3 Exaflop,对应理论峰值 1.7 Exaflop。

这两套国产超算性能均大幅超越美国橡树岭国家实验室的“前沿号”。前沿号采用 AMD Trento EPYC CPU 搭配四块 AMD Aldebaran MI250X GPU 加速卡,整套计算引擎合计不到 870 万核心,HPL 实测 1.19 Exaflop、理论峰值 1.68 Exaflop,2022 年 5 月才完成验收并投入正式业务运行。

中国实现同等乃至更强性能的时间,比美国早了一年多。受限于只能采用中芯国际本土代工,国产芯片制程工艺相对落后,这两套国产超算功耗更高、占地规模更大,建设成本也更高。但如果要开展航空飞行器、军工装备、核武器仿真研发,中国不可能被动等待美国解除英伟达、AMD GPU 以及各类算力、网络芯片的出口管制。中国有意愿、有充足财力,也下定决心实现算力自主可控。

如今登顶全球超算 Top500 榜单榜首、部署于深圳国家超算中心的新一代自研百亿亿次超算灵晟(LineShine),同样延续了这条自主研发路线。但灵晟全套自研技术相比早年的海洋之光、天河三号实现了五年代际升级,这也是该系统不仅规模更大、综合性能也全面超越前两代国产百亿亿次超算的核心原因。

灵晟基于 Armv9.2 架构 LX2 处理器内核,内置 SVE2 向量运算单元、新一代 SME 矩阵运算单元与整数处理单元,设计思路类似英特尔酷睿 Xeon 处理器:同时集成整数运算、AVX 向量单元与 AMX 矩阵加速模块。换个角度理解,LX2 与新一代至强 P 核都相当于剥离图形渲染能力的一体化 CPU-GPU 混合计算单元。

LX2 芯片由深圳国家超算中心联合国内科技巨头华为(海思半导体)共同设计。灵坤 LX2单插槽内置 304 颗可用计算核心,芯片原生核心数量更多,预留冗余用以提升晶圆良率。灵晟配套自研灵启(LingQi)LQLink 高速互联网络,官方全称灵启高速互连网络,基本可判定基于无限带宽(InfiniBand)技术改良,也可能是深度定制、精简改造后的以太网方案。

依托 SVE2 与 SME 数学单元带来充足的 64 位浮点算力,LX2 仅需 1379 万颗核心,就能达成 2.74 Exaflop 理论峰值算力(保留三位有效数字)。对比同为向量矩阵混合架构的海洋之光:核心数量减少 32.9%,峰值性能反而提升 46.7%。在标准 HPL 测试中,灵晟实测算力接近 2.2 Exaflop,比此前榜单榜首、美国劳伦斯利弗莫尔国家实验室搭载 AMD MI300A 加速卡的 “埃尔卡皮坦” 超算性能高出 21.5%。中国打造灵晟,目标毫无疑问是超越埃尔卡皮坦,但更核心的诉求,是实现对自研前两代百亿亿次超算的全面迭代升级。

下面我们深度解析灵晟超算。

深圳国家超算中心 4 月 17 日发布一篇题为《突破亿参数通用机器学习原子势训练算力瓶颈》的论文,文中简要披露了灵晟基础硬件参数,也是本文信息的核心来源。更多细节来自超算总设计师卢宇彤于 5 月 22–25 日在深圳举办的第二届 HPC 与 AI 协同创新国际论坛(HACI 2026)所作报告。这份灵晟专题报告并未对外公开,但瑞士国家超级计算中心 AI 首席架构师、苏黎世联邦理工学院教授托尔斯滕・赫夫勒,以及长期服务日本多家实验室、现任职泛纳斯日本技术销售总监的小川忠士,在社交平台分享了现场部分幻灯片。

这些分享内容提供了远多于论文的灵晟细节。论文同时提及另一台百亿亿次级国产超算——中国新一代智能超算(CNIS),单节点搭载两颗未披露型号 64 位通用 CPU 与八颗未知国产 GPU,整套系统共计 5632 个节点,同样全部采用国产计算芯片。论文对 CNIS 节点描述如下: “主处理器主频 2.4GHz,采用 64 核心 NUMA 架构,搭配 8 通道 DDR5-6400 内存与第五代 PCIe 接口,主机到加速卡带宽 64GB/s;单张通用 GPU 峰值 FP64 算力 32.7 TFLOPS、FP32 算力 65.5 TFLOPS、FP16 算力 470 TFLOPS,搭载 64GB 高带宽内存 HBM,带宽 1.8TB/s;内置 320 组 SIMD 运算单元、768KB 通用寄存器、64KB 本地数据存储 LDS、8MB 二级缓存。加速卡之间通过高速片间直连接口互联,节点间采用自研类 InfiniBand RDMA 网络,三层双平面 Clos 拓扑,单节点带宽 4×400Gb/s。”

本文重点聚焦灵晟系统,先介绍LX2 计算芯片架构框图与完整规格:

打开网易新闻 查看精彩图片

从架构图可见,LX2 采用双芯粒互联设计。每个芯粒包含 48 个核心簇,每簇内置 4 颗运算核心;单芯粒原生 192 核,单插槽合计 384 核,冗余规模合理。对外仅开放 304 颗可用核心,对应晶圆良率 79.2%,符合中芯国际 7nm 工艺(N+3 改良版)的量产预期。结合芯片主频仅 1.55GHz 判断,LX2 芯粒极大概率采用中芯国际 N+3 七纳米工艺流片。

该工艺理论可支撑芯片主频突破 3GHz,但研发团队刻意压低主频,平衡内存访问与核心运算速率。内存带宽增速本就应当高于核心主频 —— 这也是我一贯坚持的设计思路,核心频率拉高会带来功耗指数级上涨。即便仅 1.55GHz(主频低于多数消费级 GPU,但差距不大),整套 LX2 芯片功耗仍高达 690 瓦,功耗水平偏高。深圳超算中心刻意降频,将芯片控制在散热最优区间,依靠超算大规模堆叠弥补单芯片频率损失,最终在海量 HPC 与 AI 任务下实现更优单位功耗算力。

无论 GPU 阵营如何宣传,这都是非常合理的取舍;如果只能使用 7nm 制程,这种折中方案无可避免。

论文称 LX2 配备 8 组 HBM 堆栈,实际应为每个芯粒 8 组,全文表述存在简写疏漏。每组 HBM 对应芯粒内 24 颗 LX2 核心;单芯粒配置 32GB HBM,带宽 4TB/s,单插槽合计 64GB HBM、总带宽 8TB/s,推测为小幅超频改良版 HBM2E。

LX2 同时支持普通 DRAM 内存,单插槽除 64GB HBM 外额外配备 256GB DRAM,具体单条容量未披露。深圳超算采用 3D 堆叠方案,将定制 DRAM 逻辑晶圆堆叠封装至 LX2 芯片;具体堆叠位置方案未公开,但我高度怀疑采用长鑫存储去年展示、主频 10.7GHz 的 LPDDR5X 内存,仅为个人推测。整套 DRAM 内存依托两颗计算芯粒划分为八大 NUMA 域,配套 SDMA 引擎自动完成两类内存间的数据调度迁移。

架构图右侧可见 8 块 DRAM 存储裸片与 4 片 IO 裸片堆叠在核心裸片上方,互联 IP 模块(深蓝色区块)实现存储、IO 与左右两侧核心封装层的高速连通。

拆解视图清晰展示 SME 与 SVE2 运算单元:SME 为二维矩阵阵列,运算结果汇总至 FP32 通用寄存器,属于华为基于 ARM SME 规范定制优化;SVE2 向量单元基本沿用 Neoverse 官方 IP。

SME 单元及 HBM/LPDDR5X 内存关键参数如下:

打开网易新闻 查看精彩图片

这篇 AI 算力论文笼统提及,LX2 依托 SME、SVE 单元完整支持 FP64/FP32/FP16/INT8 多精度计算,单芯片 FP64 峰值 60.3 TFLOPS、FP32 峰值 120.6 TFLOPS。文中并未区分算力归属矩阵单元还是向量单元,也未给出 FP16、INT8 低精度算力数据,缺少关键参考信息。

打开网易新闻 查看精彩图片

灵晟整机堆叠架构说明:灵晟基础计算节点为双插槽 LX2 服务器;8 台双路节点集成一块计算刀片机箱,16 块刀片机箱整合为一个整机框。刀片机箱内部节点通过 PCIe 5.0 互联,框内 16 块刀片依靠交换机互通,硬件成本控制更经济,单框总计 256 颗 LX2 处理器。 一个整机机柜容纳两套刀片整机框,官方标称单机柜 FP64 峰值 30.87 Petaflop。

整机横向扩展依靠自研 灵启(LingQi)高速互联,大概率为以太网衍生方案,也可能基于 InfiniBand 二次开发;采用双平面多链路胖树拓扑,单节点网络带宽 1.6Tb/s(网卡集成在 LX2 封装内部,配备两条 400Gb/s 物理端口)。

打开网易新闻 查看精彩图片

灵启互联网络四层胖树架构,单跳网络延迟 1.07 微秒(该延迟表现更接近以太网,但也有可能是 InfiniBand 实际部署下的真实指标);全网双向分割总带宽超 3.5 Pb/s。灵启第一层为框内交换矩阵,第二层实现刀片横向互通,向上对接第三层汇聚交换;框内全部采用铜线传输。灵晟整机共计 184 个整机框,依靠第四层光交换网络完成跨框互联,配套 32 台独立网络机柜。

深圳超算中心发布的 AI 论文显示,灵晟完整配置共计 20480 个 LX2 节点,折算 12451840 颗核心。但 6 月 Top500 榜单用于 HPL 跑分、登顶全球第一的灵晟测试集群扩展至 22680 个节点,合计 13789440 颗核心,额外增加 2200 台计算节点。不难看出,中国可根据业务需求随时横向扩容灵晟集群。

参与榜单测试的灵晟集群计算效率达 80.35%,水平十分出色,印证了 “一体化集成向量矩阵运算单元” 相比 CPU+GPU 分离架构的效率优势。作为参考基准,日本理研所富士通 “京” 超算 HPL 运行效率创下 93% 的历史纪录,继任者富岳超算常年稳定在 82.3%。

打开网易新闻 查看精彩图片

本次参评灵晟整机总功耗 42.2 兆瓦,显著高于美国三台主流百亿亿次超算:橡树岭前沿号、劳伦斯利弗莫尔埃尔卡皮坦、阿贡极光号,三者功耗均低于 30 兆瓦。但更高功耗换来了架构层面的简化:灵晟无需异构卸载模型,HBM 高速缓存与普通 DRAM 统一编址;同时不存在 GPU 配套软件授权成本 —— 无论英伟达、AMD 如何辩解,其软件生态成本最终都会分摊至硬件采购价格中。

世上没有免费的技术,AI 与高性能计算软件栈尤其如此。

核心逻辑在于:美国出口管制政策倒逼中国算力自主,灵晟正是这条自研路线最新、综合实力最强的代表作。我们自始至终坚持一个判断:生成式 AI 场景中,绝大多数推理任务将依靠搭载强向量、矩阵单元的通用 CPU,搭配大容量高速混合内存运行;各类智能体 AI 任务会更加依赖这类架构。LX2 处理器、IBM Power10/Power11、z16/z17 大型机 CPU、英特尔第六代至强 P 核,均适配未来这类算力需求;当下市面其余处理器则不具备完整配套能力。

原文:

https://www.nextplatform.com/hpc/2026/06/25/a-deep-dive-on-chinas-lineshine-all-cpu-exaflops-class-supercomputer/5262439

打开网易新闻 查看精彩图片