华为昇腾950系列NPU架构白皮书|gpu|npu|时延|昇腾|物理世界|白皮书|知名企业

来源：市场资讯

（来源：智能计算芯世界）

“2025~2026 OCP /FMS /ISSCC /ODCC /HotChips全球峰会合集”，“华为昇腾950系列NPU架构白皮书”，”2026中国GPU芯片行业深度剖析“，“2025年中国GPU云市场研究报告”，“2026全球GPU芯片行业深度剖析”，“2026年中国DPU技术市场研究报告”，以及AI/ 芯片/ 半导体/ 大模型等“97个技术专栏”请参考智能计算芯知识。

华为昇腾 950 绝非简单的参数堆砌，而是一次从底层架构到生态逻辑的彻底重构。它不只是一颗NPU，更是华为撕开高端算力垄断、构建自主 AI 底座的 “核心利刃”。今天咱们就扒透这颗 “国产算力核弹” 的架构细节，聊聊它凭什么敢跟国际巨头正面硬刚。

华为昇腾950系列NPU架构白皮书（目录）

一、一芯双构：把“训练 / 推理” 拆成两把利刃

昇腾950 最绝的设计，是一芯双构的差异化策略—— 共用同一套 Ascend 950 核心 Die，却衍生出 950PR 和 950DT 两款芯片，精准拿捏 AI 大模型 “Prefill（预填充）+Decode（解码）” 两大核心场景，拒绝 “一招鲜吃遍天” 的通用化妥协。

1. 昇腾 950PR：推理 Prefill 的 “效率之王”

主打大模型预填充、推荐系统等计算密集型场景，2026 年 3 月已实现规模量产。核心配置拉满：搭载自研 HiBL 1.0 高带宽内存，128GB 容量 + 1.6TB/s 带宽，原生支持FP8/MXFP8 / 自研 HiF8 低精度格式，单芯片 FP8 算力达 1 PFLOPS，专为 “大块数据批量处理” 优化。简单说，用户输入长文本时，950PR 能快速处理海量数据、生成 KV 缓存，快、省、稳，是推理集群的 “流量担当”。

2. 昇腾 950DT：训练 / 解码的 “性能天花板”

瞄准大模型训练、长文本解码，预计2026 年 Q4 量产。配置直接拉满：升级 HiZQ 2.0（朱雀）内存，144GB 超大容量 + 4TB/s 史诗级带宽，比PR 提升 1.5 倍，FP4 算力飙升至 2 PFLOPS，专为 “token 逐一生成” 的带宽瓶颈场景量身定制。跑千亿参数模型训练、长文本对话时，950DT 能喂饱 GPU 的 “数据胃口”，彻底解决 “算力够、带宽拖后腿” 的痛点。

这种“场景化定制”，看似是拆分，实则是极致的精准打击—— 不浪费一分算力、不冗余一丝带宽，把每一颗晶体管都用在刀刃上，这才是国产芯片的突围智慧。

二、架构革命：从达芬奇到“GPU 化” 的硬核跃迁

昇腾950 的架构，是一次脱胎换骨的进化—— 告别前代达芬奇架构的专用化束缚，转向更通用、更开放的类 GPU 设计，同时保留 NPU 的高效能基因，堪称 “GPU 的灵活 + NPU 的高效” 完美融合。

1. SIMD/SIMT 双模式同构：灵活拉满

核心计算单元采用创新SIMD/SIMT 双编程模型，打破传统芯片“单一计算逻辑” 的桎梏。

·SIMD 模式：像流水线，批量处理向量数据，适配推荐系统、CV 等规整任务，效率拉满；

·SIMT 模式：擅长碎片化、并行化数据，完美适配NLP 长文本、大模型解码等不规则场景。简单说，不管是 “整齐划一” 的计算，还是 “杂乱无章” 的任务，950 都能无缝适配，告别场景限制，通用性直接拉满。

2. 内存子系统：精细到 128 字节的极致优化

内存访问颗粒度从前代512 字节骤降至128 字节，堪称“显微镜级” 优化。这意味着芯片处理零散、不连续数据时，浪费的带宽更少，效率更高 —— 大模型解码、推荐系统的碎片化特征，被精准拿捏，带宽利用率飙升 30%+。

3. PD 分离架构：推理效率翻倍

创新性引入PD 分离（Prefill/Decode 分离）架构，把预填充和解码的计算、存储资源彻底解耦。预填充用高算力低带宽，解码用高带宽低算力，资源精准匹配，推理延迟直接降低50%，并发能力翻倍，彻底告别 “一卡难求” 的推理集群困境。

4. 全栈自研 + 生态兼容：打破墙、建桥梁

架构层面实现全栈自研，从指令集、计算单元到互联协议，全部自主可控。同时兼容CUDA 核心 API，模型迁移成本极低 —— 海外大模型拿来就能跑，不用重写代码，生态门槛直接拉低。这种 “自主 + 兼容” 的平衡，既守住安全底线，又降低使用门槛，堪称国产芯片的 “破局之道”。

三、低精度核弹：FP4 原生支持，显存效率封神

昇腾950 最炸裂的技术突破，是原生支持FP4（4 位超低精度），国内唯一、全球领先。

1. 精度碾压，效率封神

FP4 的显存占用仅为 FP16 的 1/4、FP8 的 1/2，单卡144GB 显存，等效 576GB FP16，千亿参数模型单卡就能跑，不用多卡拼接。FP4 算力达 2 PFLOPS，比英伟达 H20 的 0.543 PFLOPS 高 2.87 倍，高并发推理时延降低 70%，堪称 “显存效率天花板”。

2. 全链路低精度：从训练到推理全覆盖

除FP4 外，还支持 FP8/MXFP8 / 自研 HiF8 等多精度格式，训练用FP8、推理用 FP4，全链路适配。低精度不丢精度、不影响效果，却能大幅降低功耗、提升吞吐，完美平衡性能与能耗，这才是AI 芯片的终极追求。

四、灵衢2.0 互联：8192 卡全互联，集群之王

单卡强不够，集群强才是真强。昇腾950 搭配灵衢2.0 互联协议，彻底解决多卡通信瓶颈。

·带宽时延双杀：互联带宽达2TB/s，单跳时延从 2μs 降至 200ns，降低 10 倍；

·全光Mesh 拓扑：柜间带宽提升10 倍，跨柜时延仅 7μ，8192 卡全互联无压力；

·Atlas 950 超节点：支持8192 卡直连，总带宽 16.3PB，是英伟达 NVLink 的 62 倍，万亿参数模型训练轻松拿捏。

这种“集群级” 互联能力，让昇腾 950 不再是单卡 “小打小闹”，而是能支撑国家级 AI 算力底座的 “超级集群”，国产大模型训练再也不用看别人脸色。

五、破局与野心：不止是芯片，是自主算力生态

昇腾950 的意义，从来不止于一颗芯片 —— 它是华为全栈自主算力生态的核心拼图。

·全链路可控：芯片、架构、内存、互联、软件工具链，100% 自研，彻底摆脱断供、锁算力风险；

·性价比碾压：硬件成本仅为H2 的 1/4，性能更强，国产替代性价比拉满；