来源:市场资讯

(来源:电子创新网)

据外媒报道,据两位知情人士透露(作者注:未经产业核实,请慎重对待此消息)华为昇腾950PR在中国客户测试进展顺利,包括字节跳动和阿里巴巴在内的多家科技巨头计划下单。

这一进展对华为而言具有里程碑意义,对中国AI市场也具有重要里程碑意义。据透露,本土互联网大厂此次计划更广泛地使用新款 950PR 芯片,因为该芯片与英伟达 CUDA 软件系统的兼容性更强,响应速度也更快,这让他们更加满意。

据透露,华为计划今年出货约 75 万颗 950PR 芯片,采用传统DDR显存的950PR显卡售价约为每张5万元人民币(约合6900美元),而配备速度更快的HBM显存的高端版本售价约为7万元人民币。如果以昇腾950PR单卡售价7万元(HBM版)计算,此次销售营收合计525亿元!

此前,华为一直坚持使用其自主研发的CANN软件系统,而昇腾950PR将使此前普遍使用英伟达软件系统的中国科技公司开发者能够更轻松地迁移这些模型。

打开网易新闻 查看精彩图片

2025年9月18日,在华为全联接大会上,华为副董事长、轮值董事长徐直军在“以开创的超节点互联技术,引领AI基础设施新范式”主题演讲中披露了华为接下来三年的昇腾芯片规划和演进方向。徐直军披露2026年第一季度将要发布昇腾950PR,2026年年第四季度发布昇腾950DT。2027年第四季度要发布昇腾960、2028年发布昇腾970。

2025年,英伟达一直推动其H200在中国的销售,这里将H200与昇腾950PR做一对比。

一、核心规格对比(关键参数)

指标

华为昇腾 950PR

NVIDIA H200

架构定位

AI推理优化(兼顾训练)

通用AI训练+推理

计算精度优势

FP4 / FP8 强

FP8 / FP16 强

FP8算力

~1 PFLOPS

~2 PFLOPS

FP4算力

~1.5–2 PFLOPS(优势项)

不支持/弱

显存

~112GB HBM(HiBL)

141GB HBM3e

显存带宽

~1.4 TB/s

~4.8 TB/s

互联

自研互联(~2TB/s级)

NVLink(~900GB/s)

功耗

~600W

~650–800W

一句话总结:单卡硬件能力:H200仍明显更强(尤其带宽)低精度推理:昇腾950PR有结构性优势

二、性能本质差异(重点)

1️⃣ 单卡算力:H200仍领先

  • H200 FP8算力约接近2 PFLOPS

  • 950PR约1 PFLOPS级别

结论:训练、大模型计算 → H200更强

2️⃣ 低精度推理:950PR“弯道超车”

  • 950PR重点押注:

    • FP4 / 混合精度

    • KV Cache优化

  • 官方数据:FP4达1.56 PFLOPS

关键变化:LLM推理正在从 FP16 → FP8 → FP4,华为直接“跳两代精度” 结论:推理(尤其大模型在线服务)→ 950PR更有性价比潜力

3️⃣ 内存与带宽:H200碾压

  • H200:~4.8 TB/s

  • 950PR:~1.4 TB/s

这点极其关键:LLM瓶颈 = memory bound。带宽直接决定token吞吐 结论:大模型训练 / 长上下文推理 → H200优势明显

4️⃣ 多卡集群能力(真正分水岭)

H200:

  • NVLink成熟

  • 千卡集群效率 >90%(行业事实)

950PR:

  • 新互联(LingQu)

  • 带宽提升,但生态尚未验证

结论:超大模型训练 → NVIDIA仍是唯一解

三、架构思路差异(非常关键)

NVIDIA H200

本质:“通用加速器 + CUDA生态统治”

特点:

  • 强Tensor Core

  • 高带宽HBM

  • CUDA锁死开发者

华为昇腾950PR,本质:“为AI推理重构的专用芯片”

特点:

  • 极致低精度(FP4)

  • KV cache友好

  • 更像“AI推理ASIC”

四、生态对比(决定胜负)

NVIDIA

  • CUDA:400万开发者

  • 框架全适配(PyTorch / TensorFlow)

  • 软件定义算力

结论:生态=护城河

华为昇腾

  • MindSpore + CANN

  • 正在兼容CUDA生态

关键变化:过去最大短板:软件。现在在补:兼容层

五、价格 &商业现实

  • 950PR:约 $6,000–$10,000

  • H200:通常 $20,000+(行业区间)

结论:价格差:2–3倍

可以理解为:NVIDIA的产品是 “AI时代的Intel(通用计算)”而华为昇腾:则是 “AI时代的ASIC(场景优化)”。H200 = 天花板性能 + 生态垄断950PR = 成本优势 + 推理重构路径】,所以在推理规模化普及的今天加之大模型训推本土化,昇腾950PR可能更受青睐!

在刚刚结束的华为中国合作伙伴大会2026上,华为重磅发布并展出了搭载全新昇腾950PR(Ascend 950PR)处理器的AI训练推理加速卡Atlas 350。据华为介绍,Atlas 350的单卡算力达到了英伟达H20的2.87倍,是目前国内唯一支持FP4低精度的推理产品;HBM(高带宽内存)容量是H20的1.16倍,达到了112GB,多模态生成速度可以提升60%;内存访问颗粒度从512字节减少到128字节,小算子访存效率提升4倍。

看来,国产算力芯片已经逐步追上来了!那更进一步,如同英伟达链一样,随着国产算力芯片崛起,也一定会带动本土算力产业链各个环节如封测、线缆、电源、光器件走强!

对此,大家怎么看?会有哪些产业链上的企业受益呢?欢迎留言讨论!