来源:市场资讯

(来源:智能计算芯世界)

打开网易新闻 查看精彩图片

华为昇腾AI芯片遵循“一年一代、算力翻倍” 的迭代逻辑,从通用型算力底座(910C)到场景化细分(950PR/DT),再到超大规模算力跃升(960/970),形成覆盖 “训练、推理” 全场景、“通用、垂直” 全需求的算力谱系,同时通过自研 HBM、双编程模型等创新,支撑 PTU 计费模式落地与 AI 产业规模化发展。

一、核心参数总览表

打开网易新闻 查看精彩图片

2025 + 行业研报,具体以发布产品参数为准)

本文来自“华为昇腾五款旗舰芯片:演进路径、架构创新、生态和详细参数对比”,本文资料都已上传至“智能计算芯知识”星球,更多内容参考自“OpenClaw技术合集(70+份)”,提供打包下载,内容持续更新...

打开网易新闻 查看精彩图片

二、关键维度深度解析

1. 算力演进:从 “规模提升” 到 “精度优化”

  • 昇腾 910C:作为第三代昇腾开篇之作,以 800 TFLOPS(FP16)算力奠定基础,采用双昇腾 910B 芯片合封设计,适配 CloudMatrix 384 超节点集群,可支撑千亿参数模型训练。

  • 950 系列突破:首次引入 FP8/FP4 低精度格式,算力跃升至 1 PFLOPS(FP8),华为自研 HiF8 格式实现 “低精度 + 高保真” 平衡,精度接近 FP16,解决大模型训练中的算力与精度矛盾。

  • 960/970 迭代:遵循“每代算力翻倍” 原则,970 最终实现 8 PFLOPS(FP4)算力,配合 N+3 工艺优化,能效比较 910C 提升 30% 以上,适配动态稀疏计算与 MoE 架构。

2. 架构创新:SIMD/SIMT 双模型适配多元场景

910C 沿用 SIMD 架构,专注高效向量计算;950 及后续型号新增 SIMT 编程模型,支持 “大块向量流水线处理 + 碎片化数据灵活调度”,内存访问颗粒度从 512 字节缩减至 128 字节,离散内存访问效率提升 4 倍。

同时,提供 ASIC(昇腾 Core)和 GPGPU 双生子型号,分别适配 CANN 生态和 CUDA 兼容生态,降低客户迁移成本。

3. 存储与互联:破解大模型 “访存瓶颈”

内存技术迭代:950 系列首次采用华为自研 HBM 方案,950PR 的 HiBL 1.0 侧重成本控制,950DT 的 HiZQ 2.0 强化带宽(4TB/s),适配训练场景的高访存需求;960/970 通过容量翻倍(288GB)和带宽飙升(最高 14.4TB/s),彻底解决万亿参数模型的内存限制。

互联能力升级:从910C 的 784GB/s 到 970 的 4TB/s,互联带宽提升5 倍,支持多芯片集群线性扩展,950 系列超节点可超越英伟达 2027 年 NVL576 系统性能。

4. 场景分化:精准匹配不同 AI 业务需求

昇腾 910C:通用性强,覆盖“训练 + 推理” 全场景,当前已广泛应用于政务、金融等行业的 AI 基础设施建设。

打开网易新闻 查看精彩图片

950PR/DT 分工:PR 聚焦推理 Prefill 阶段(如视频推荐、实时交互),DT 侧重推理 Decode 阶段(如对话生成)和训练任务,通过差异化内存配置(128GB vs 144GB)适配不同访存需求。

960/970:瞄准超大规模场景,960 支持 288GB 超大内存,适配千亿参数模型;970 以 4TB/s 互联带宽和 8 PFLOPS 算力,成为 MoE 等下一代 AI 架构的核心支撑。

三、技术亮点与行业意义

1.全栈优化逻辑:从芯片(昇腾)→框架(MindSpore)→算子库(CANN)→应用(ModelArts),形成端到端优化,950 系列向量算力占比提升 30%,任务调度延迟降低 50%。

2.国产化突破:N+2/N+3 工艺自主可控,HBM 内存摆脱对外依赖,HiBL/HiZQ 系列自研存储技术填补国内空白,互联架构打破英伟达 NVLink 垄断。

3.成本优势:950PR 定价约 10 万元 / 卡(重点客户 8 万元),较同性能竞品低 30%;960/970 通过多 Die 封装提升良率,进一步降低大规模部署成本。

完整内容请进入“智能计算芯知识星球”或扫码下载“华为昇腾五款旗舰芯片:演进路径、架构创新、生态和详细参数对比”。

温馨提示:请通过“扫码”和“阅读原文”加入星球,获取OpenClaw合集,以及更多(芯片、大模型、AI、超节点、具身智能、算力、HBM、CXL等等...)资料合集。