外媒深度解析：纯国产 Arm CPU，7nm 打造全球第一超算！|arm|cpu|dram|gpu|处理器|高带宽内存

2026年6月23日，德国汉堡，国际超级计算大会ISC2026现场。当新一期全球超算TOP500榜单公布的那一刻，全场目光都聚焦在一个名字上——“灵晟（LineShine）”。

这台来自国家超级计算深圳中心的超级计算机，以2.19EFlops的持续双精度浮点性能，直接登顶全球第一。什么概念？2.19EFlops，就是每秒219亿亿次计算。

更直白一点：央视给出的类比是，灵晟1秒钟的运算量，相当于全球70亿人每人每秒算一次、不吃不睡连续算十年。普通家用电脑要跑完它一天的计算任务，得花几十万年。

中国超算，时隔九年，重回世界第一。

为此，海外科技媒体 NextPlatform 依托公开披露信息与官方发布的技术论文，对灵晟（LineShine）超算的技术架构路线展开了全面深度解析。

原文翻译如下：

距离中国高性能超算登顶高性能林帕克（HPL）性能榜单榜首，已经过去九年。但众所周知，中国早在美国之前就突破了 64 位精度百亿亿次（Exaflop）算力门槛，而且依靠两套完全不同的超算系统实现了这一目标。中国并未大肆宣扬此事，却向美国业内专家释放了足量信息，相关消息也因此流传开来。

具体来说，部署于青岛国家超算中心的神威・海洋之光是国内首台达成百亿亿次门槛的系统。nextplatform最早在 2021 年 2 月就提及这台超算，并在 2022 年 3 月深度拆解过它的架构。整套海洋之光搭载神威 SW26010-Pro 处理器，共计 4193 万计算核心；理论峰值算力、HPL 实测 1.22 千万亿次（Petaflop），据传整机于 2021 年 3 月正式上线运行。

另一套天河三号采用飞腾 2000 Arm 通用处理器 + 矩阵 3000 DSP 协处理器的异构架构，理论峰值算力约 2.05 Exaflop，HPL 实测性能约 1.57 Exaflop。2021 年 10 月，广州国家超算中心率先上线天河三号初期版本，当时性能并未拉满；完整配置版本直至 2023 年 12 月才达到上述满配算力指标。而早在 2021 年末，仅搭载老款矩阵 2000 DSP 协处理器的天河三号原型机，HPL 实测算力就达到 1.3 Exaflop，对应理论峰值 1.7 Exaflop。

这两套国产超算性能均大幅超越美国橡树岭国家实验室的“前沿号”。前沿号采用 AMD Trento EPYC CPU 搭配四块 AMD Aldebaran MI250X GPU 加速卡，整套计算引擎合计不到 870 万核心，HPL 实测 1.19 Exaflop、理论峰值 1.68 Exaflop，2022 年 5 月才完成验收并投入正式业务运行。

中国实现同等乃至更强性能的时间，比美国早了一年多。受限于只能采用中芯国际本土代工，国产芯片制程工艺相对落后，这两套国产超算功耗更高、占地规模更大，建设成本也更高。但如果要开展航空飞行器、军工装备、核武器仿真研发，中国不可能被动等待美国解除英伟达、AMD GPU 以及各类算力、网络芯片的出口管制。中国有意愿、有充足财力，也下定决心实现算力自主可控。

如今登顶全球超算 Top500 榜单榜首、部署于深圳国家超算中心的新一代自研百亿亿次超算灵晟（LineShine），同样延续了这条自主研发路线。但灵晟全套自研技术相比早年的海洋之光、天河三号实现了五年代际升级，这也是该系统不仅规模更大、综合性能也全面超越前两代国产百亿亿次超算的核心原因。

灵晟基于 Armv9.2 架构 LX2 处理器内核，内置 SVE2 向量运算单元、新一代 SME 矩阵运算单元与整数处理单元，设计思路类似英特尔酷睿 Xeon 处理器：同时集成整数运算、AVX 向量单元与 AMX 矩阵加速模块。换个角度理解，LX2 与新一代至强 P 核都相当于剥离图形渲染能力的一体化 CPU-GPU 混合计算单元。

LX2 芯片由深圳国家超算中心联合国内科技巨头华为（海思半导体）共同设计。灵坤 LX2单插槽内置 304 颗可用计算核心，芯片原生核心数量更多，预留冗余用以提升晶圆良率。灵晟配套自研灵启（LingQi）LQLink 高速互联网络，官方全称灵启高速互连网络，基本可判定基于无限带宽（InfiniBand）技术改良，也可能是深度定制、精简改造后的以太网方案。

依托 SVE2 与 SME 数学单元带来充足的 64 位浮点算力，LX2 仅需 1379 万颗核心，就能达成 2.74 Exaflop 理论峰值算力（保留三位有效数字）。对比同为向量矩阵混合架构的海洋之光：核心数量减少 32.9%，峰值性能反而提升 46.7%。在标准 HPL 测试中，灵晟实测算力接近 2.2 Exaflop，比此前榜单榜首、美国劳伦斯利弗莫尔国家实验室搭载 AMD MI300A 加速卡的 “埃尔卡皮坦” 超算性能高出 21.5%。中国打造灵晟，目标毫无疑问是超越埃尔卡皮坦，但更核心的诉求，是实现对自研前两代百亿亿次超算的全面迭代升级。

下面我们深度解析灵晟超算。

深圳国家超算中心 4 月 17 日发布一篇题为《突破亿参数通用机器学习原子势训练算力瓶颈》的论文，文中简要披露了灵晟基础硬件参数，也是本文信息的核心来源。更多细节来自超算总设计师卢宇彤于 5 月 22–25 日在深圳举办的第二届 HPC 与 AI 协同创新国际论坛（HACI 2026）所作报告。这份灵晟专题报告并未对外公开，但瑞士国家超级计算中心 AI 首席架构师、苏黎世联邦理工学院教授托尔斯滕・赫夫勒，以及长期服务日本多家实验室、现任职泛纳斯日本技术销售总监的小川忠士，在社交平台分享了现场部分幻灯片。

这些分享内容提供了远多于论文的灵晟细节。论文同时提及另一台百亿亿次级国产超算——中国新一代智能超算（CNIS），单节点搭载两颗未披露型号 64 位通用 CPU 与八颗未知国产 GPU，整套系统共计 5632 个节点，同样全部采用国产计算芯片。论文对 CNIS 节点描述如下： “主处理器主频 2.4GHz，采用 64 核心 NUMA 架构，搭配 8 通道 DDR5-6400 内存与第五代 PCIe 接口，主机到加速卡带宽 64GB/s；单张通用 GPU 峰值 FP64 算力 32.7 TFLOPS、FP32 算力 65.5 TFLOPS、FP16 算力 470 TFLOPS，搭载 64GB 高带宽内存 HBM，带宽 1.8TB/s；内置 320 组 SIMD 运算单元、768KB 通用寄存器、64KB 本地数据存储 LDS、8MB 二级缓存。加速卡之间通过高速片间直连接口互联，节点间采用自研类 InfiniBand RDMA 网络，三层双平面 Clos 拓扑，单节点带宽 4×400Gb/s。”

本文重点聚焦灵晟系统，先介绍LX2 计算芯片架构框图与完整规格：

从架构图可见，LX2 采用双芯粒互联设计。每个芯粒包含 48 个核心簇，每簇内置 4 颗运算核心；单芯粒原生 192 核，单插槽合计 384 核，冗余规模合理。对外仅开放 304 颗可用核心，对应晶圆良率 79.2%，符合中芯国际 7nm 工艺（N+3 改良版）的量产预期。结合芯片主频仅 1.55GHz 判断，LX2 芯粒极大概率采用中芯国际 N+3 七纳米工艺流片。

该工艺理论可支撑芯片主频突破 3GHz，但研发团队刻意压低主频，平衡内存访问与核心运算速率。内存带宽增速本就应当高于核心主频 —— 这也是我一贯坚持的设计思路，核心频率拉高会带来功耗指数级上涨。即便仅 1.55GHz（主频低于多数消费级 GPU，但差距不大），整套 LX2 芯片功耗仍高达 690 瓦，功耗水平偏高。深圳超算中心刻意降频，将芯片控制在散热最优区间，依靠超算大规模堆叠弥补单芯片频率损失，最终在海量 HPC 与 AI 任务下实现更优单位功耗算力。

无论 GPU 阵营如何宣传，这都是非常合理的取舍；如果只能使用 7nm 制程，这种折中方案无可避免。

论文称 LX2 配备 8 组 HBM 堆栈，实际应为每个芯粒 8 组，全文表述存在简写疏漏。每组 HBM 对应芯粒内 24 颗 LX2 核心；单芯粒配置 32GB HBM，带宽 4TB/s，单插槽合计 64GB HBM、总带宽 8TB/s，推测为小幅超频改良版 HBM2E。

LX2 同时支持普通 DRAM 内存，单插槽除 64GB HBM 外额外配备 256GB DRAM，具体单条容量未披露。深圳超算采用 3D 堆叠方案，将定制 DRAM 逻辑晶圆堆叠封装至 LX2 芯片；具体堆叠位置方案未公开，但我高度怀疑采用长鑫存储去年展示、主频 10.7GHz 的 LPDDR5X 内存，仅为个人推测。整套 DRAM 内存依托两颗计算芯粒划分为八大 NUMA 域，配套 SDMA 引擎自动完成两类内存间的数据调度迁移。

架构图右侧可见 8 块 DRAM 存储裸片与 4 片 IO 裸片堆叠在核心裸片上方，互联 IP 模块（深蓝色区块）实现存储、IO 与左右两侧核心封装层的高速连通。

拆解视图清晰展示 SME 与 SVE2 运算单元：SME 为二维矩阵阵列，运算结果汇总至 FP32 通用寄存器，属于华为基于 ARM SME 规范定制优化；SVE2 向量单元基本沿用 Neoverse 官方 IP。

SME 单元及 HBM/LPDDR5X 内存关键参数如下：

这篇 AI 算力论文笼统提及，LX2 依托 SME、SVE 单元完整支持 FP64/FP32/FP16/INT8 多精度计算，单芯片 FP64 峰值 60.3 TFLOPS、FP32 峰值 120.6 TFLOPS。文中并未区分算力归属矩阵单元还是向量单元，也未给出 FP16、INT8 低精度算力数据，缺少关键参考信息。

灵晟整机堆叠架构说明：灵晟基础计算节点为双插槽 LX2 服务器；8 台双路节点集成一块计算刀片机箱，16 块刀片机箱整合为一个整机框。刀片机箱内部节点通过 PCIe 5.0 互联，框内 16 块刀片依靠交换机互通，硬件成本控制更经济，单框总计 256 颗 LX2 处理器。一个整机机柜容纳两套刀片整机框，官方标称单机柜 FP64 峰值 30.87 Petaflop。

整机横向扩展依靠自研灵启（LingQi）高速互联，大概率为以太网衍生方案，也可能基于 InfiniBand 二次开发；采用双平面多链路胖树拓扑，单节点网络带宽 1.6Tb/s（网卡集成在 LX2 封装内部，配备两条 400Gb/s 物理端口）。

灵启互联网络四层胖树架构，单跳网络延迟 1.07 微秒（该延迟表现更接近以太网，但也有可能是 InfiniBand 实际部署下的真实指标）；全网双向分割总带宽超 3.5 Pb/s。灵启第一层为框内交换矩阵，第二层实现刀片横向互通，向上对接第三层汇聚交换；框内全部采用铜线传输。灵晟整机共计 184 个整机框，依靠第四层光交换网络完成跨框互联，配套 32 台独立网络机柜。

深圳超算中心发布的 AI 论文显示，灵晟完整配置共计 20480 个 LX2 节点，折算 12451840 颗核心。但 6 月 Top500 榜单用于 HPL 跑分、登顶全球第一的灵晟测试集群扩展至 22680 个节点，合计 13789440 颗核心，额外增加 2200 台计算节点。不难看出，中国可根据业务需求随时横向扩容灵晟集群。

参与榜单测试的灵晟集群计算效率达 80.35%，水平十分出色，印证了 “一体化集成向量矩阵运算单元” 相比 CPU+GPU 分离架构的效率优势。作为参考基准，日本理研所富士通 “京” 超算 HPL 运行效率创下 93% 的历史纪录，继任者富岳超算常年稳定在 82.3%。

本次参评灵晟整机总功耗 42.2 兆瓦，显著高于美国三台主流百亿亿次超算：橡树岭前沿号、劳伦斯利弗莫尔埃尔卡皮坦、阿贡极光号，三者功耗均低于 30 兆瓦。但更高功耗换来了架构层面的简化：灵晟无需异构卸载模型，HBM 高速缓存与普通 DRAM 统一编址；同时不存在 GPU 配套软件授权成本 —— 无论英伟达、AMD 如何辩解，其软件生态成本最终都会分摊至硬件采购价格中。

世上没有免费的技术，AI 与高性能计算软件栈尤其如此。

核心逻辑在于：美国出口管制政策倒逼中国算力自主，灵晟正是这条自研路线最新、综合实力最强的代表作。我们自始至终坚持一个判断：生成式 AI 场景中，绝大多数推理任务将依靠搭载强向量、矩阵单元的通用 CPU，搭配大容量高速混合内存运行；各类智能体 AI 任务会更加依赖这类架构。LX2 处理器、IBM Power10/Power11、z16/z17 大型机 CPU、英特尔第六代至强 P 核，均适配未来这类算力需求；当下市面其余处理器则不具备完整配套能力。

原文：

https://www.nextplatform.com/hpc/2026/06/25/a-deep-dive-on-chinas-lineshine-all-cpu-exaflops-class-supercomputer/5262439