华为昇腾系列AI芯片详细参数对比（2025-2028）|内存|昇腾|知名企业

来源：市场资讯

（来源：智能计算芯世界）

华为昇腾AI芯片遵循“一年一代、算力翻倍” 的迭代逻辑，从通用型算力底座（910C）到场景化细分（950PR/DT），再到超大规模算力跃升（960/970），形成覆盖 “训练、推理” 全场景、“通用、垂直” 全需求的算力谱系，同时通过自研 HBM、双编程模型等创新，支撑 PTU 计费模式落地与 AI 产业规模化发展。

一、核心参数总览表

2025 + 行业研报，具体以发布产品参数为准）

本文来自“华为昇腾五款旗舰芯片：演进路径、架构创新、生态和详细参数对比”，本文资料都已上传至“智能计算芯知识”星球，更多内容参考自“OpenClaw技术合集（70+份）”，提供打包下载，内容持续更新...

二、关键维度深度解析

1. 算力演进：从 “规模提升” 到 “精度优化”

昇腾 910C：作为第三代昇腾开篇之作，以 800 TFLOPS（FP16）算力奠定基础，采用双昇腾 910B 芯片合封设计，适配 CloudMatrix 384 超节点集群，可支撑千亿参数模型训练。
950 系列突破：首次引入 FP8/FP4 低精度格式，算力跃升至 1 PFLOPS（FP8），华为自研 HiF8 格式实现 “低精度 + 高保真” 平衡，精度接近 FP16，解决大模型训练中的算力与精度矛盾。
960/970 迭代：遵循“每代算力翻倍” 原则，970 最终实现 8 PFLOPS（FP4）算力，配合 N+3 工艺优化，能效比较 910C 提升 30% 以上，适配动态稀疏计算与 MoE 架构。

2. 架构创新：SIMD/SIMT 双模型适配多元场景

910C 沿用 SIMD 架构，专注高效向量计算；950 及后续型号新增 SIMT 编程模型，支持 “大块向量流水线处理 + 碎片化数据灵活调度”，内存访问颗粒度从 512 字节缩减至 128 字节，离散内存访问效率提升 4 倍。

同时，提供 ASIC（昇腾 Core）和 GPGPU 双生子型号，分别适配 CANN 生态和 CUDA 兼容生态，降低客户迁移成本。

3. 存储与互联：破解大模型 “访存瓶颈”

内存技术迭代：950 系列首次采用华为自研 HBM 方案，950PR 的 HiBL 1.0 侧重成本控制，950DT 的 HiZQ 2.0 强化带宽（4TB/s），适配训练场景的高访存需求；960/970 通过容量翻倍（288GB）和带宽飙升（最高 14.4TB/s），彻底解决万亿参数模型的内存限制。

互联能力升级：从910C 的 784GB/s 到 970 的 4TB/s，互联带宽提升5 倍，支持多芯片集群线性扩展，950 系列超节点可超越英伟达 2027 年 NVL576 系统性能。

4. 场景分化：精准匹配不同 AI 业务需求

昇腾 910C：通用性强，覆盖“训练 + 推理” 全场景，当前已广泛应用于政务、金融等行业的 AI 基础设施建设。