打开网易新闻 查看精彩图片

在AI大模型席卷全球的浪潮中,算力芯片是无可替代的核心基石。过去很长一段时间,国内AI产业高度依赖海外芯片,“卡脖子”风险如影随形。如今,这一格局正在被彻底改写。华为昇腾,作为国产算力的标杆,正以肉眼可见的速度崛起:客户测完950芯片一周就下单、互联网巨头和大模型初创企业全面基于昇腾训推、DeepSeekV4等顶尖模型实现全系列适配……从性能追赶到生态成型,从市场认可到自主可控,昇腾的突围之路,正是中国AI算力打破垄断、站稳脚跟的生动缩影。

一、市场爆火:从“试用”到“抢单”,客户用脚投票

“客户测了我们的950,不到一个礼拜就说可以下单了。”昇腾计算业务副总裁张良的这句话,直白道出了当下昇腾的市场热度。如今的昇腾,早已不再是需要费力推广的小众产品,而是被客户主动追捧的香饽饽,销量和认可度双双飙升。

这种热度,源于客户最真实的使用体验。在AI行业,不同场景对算力的需求天差地别。推理场景看重性价比和便捷性,不需要极致稳定性,只要用得快、成本低就好;而训练场景则是“慢工出细活”,客户要求成熟、稳定、经过长时间验证的大规模集群,软硬件必须同步达标。

此前,国内大模型训练几乎被海外芯片垄断,推理场景也多依赖进口产品。而现在,拐点已经到来——今年以来,大量客户开始全面基于昇腾训练大模型、超大参数模型,不少国内领先的模型都选择昇腾作为核心算力支撑。这背后,是昇腾产品成熟度的质变,是实打实通过了市场最严苛的可靠性考验。

更值得关注的是,“一卡难求”已成昇腾的真实写照。张良坦言:“虽然我们生产卡,但我想用卡也很难。”供需失衡的背后,是国内AI产业对国产算力的迫切需求,也是客户用真金白银做出的选择——从试用一周就下单,到互联网公司、初创企业全面适配,昇腾正在成为国产AI算力的首选。

二、硬核实力:扛住DeepSeekV4大考,950芯片双场景通吃

如果说市场热度是外在表现,那硬核技术实力就是昇腾崛起的核心底气。近期,顶尖大模型DeepSeekV4的发布,成为检验昇腾能力的“试金石”,而昇腾交出了一份满分答卷——全系列产品均完美支持DeepSeekV4,彻底打破了海外芯片在顶尖模型适配领域的垄断。

DeepSeekV4绝非普通模型,它在技术上实现了重大突破:引入混合注意力机制,结合滑窗、稀疏、压缩等优化算法,支持1M级超长上下文推理;延续MoE(混合专家)结构,对专家路由、多卡通信、KVCache管理等提出了极高要求。这样的复杂模型,对算力芯片的架构、算力、通信能力都是极致考验,堪称华为昇腾面临的一次“大考”。

打开网易新闻 查看精彩图片

面对挑战,昇腾950系列芯片展现出了强大的适配能力,完美兼顾低时延和高吞吐两大核心场景:在950DT系列上,DeepSeekV4Flash模型实现低于10毫秒的超低时延推理,Pro模型也仅需约20毫秒;在AtlasA3系列上,Flash模型则实现约30毫秒的高吞吐性能,完全满足不同场景的核心需求。

这份亮眼成绩的背后,是昇腾软件栈CANN的深度优化。针对DeepSeekV4的mHC、混合注意力、压缩器、MoE等核心模块,CANN进行了原生适配:提供多种mHC实现路径,开发稀疏注意力融合算子和KVCache压缩算子,增强长上下文稀疏注意力计算能力;优化MoE门控功能,支持哈希路由和缩放softmax……从卡间通信到算子优化,从架构适配到性能调优,每一处细节都彰显着昇腾的技术硬实力

三、厚积薄发:全面升级软硬件,筑牢自主算力根基

罗马不是一天建成的,昇腾的爆发也绝非偶然。过去一年,昇腾团队始终在“卷”技术、卷产品,从芯片架构到软件栈,从低精度能力到基础设施,完成了一轮系统性升级,为崛起筑牢根基。

去年以来,昇腾对芯片体系进行了大刀阔斧的调整,精准匹配大模型和Agent场景的新需求。如今的大模型推理和Agent应用,对编程灵活性、细粒度访存能力、Cacheline设计要求极高,昇腾针对性优化:重新配比算力,提升不同负载适配能力;引入SIMT能力,增强编程灵活性;强化细粒度访存能力,完美适配训练、推理和复杂Agent工作负载的数据访问需求。

低精度计算能力的突破,更是昇腾的一大亮点。随着大模型对Token产出效率的需求激增,FP8、FP4等低精度格式成为行业趋势。昇腾团队“拼尽全力”提前落地FP8、FP4能力,让芯片的Token产出能力直接翻倍,在推理场景中性价比优势进一步凸显。

基础设施建设同样毫不松懈。张良强调:“所有工作没有基础设施是不行的。”面对“一卡难求”的行业现状,昇腾一边全力保障芯片产能,一边加快超节点集群建设。昇腾950超节点最大可支持8192卡高速互联,形成一台超级计算机,训练性能较传统集群翻番,可稳定运行30天以上,为万亿级大模型训练提供了坚实支撑。

四、生态破局:拒绝“仿CUDA”,走自主可控之路

对于算力芯片而言,硬件是骨架,生态是灵魂。英伟达能长期垄断全球AI算力市场,核心就在于CUDA构建的生态护城河。如今,昇腾正以CANN为核心,打造属于中国的自主AI计算生态,而且坚决拒绝走“仿CUDA”的捷径。

打开网易新闻 查看精彩图片

张良明确表示:“如果只是做一个‘CUDA2号’,短期适配成本低,但新特性都建立在他人生态上,不是真正的自主生态。”在他看来,从虚拟指令级、运行时能力,到编译器、硬件协同,必须全部自主构建,才能把底层能力牢牢掌握在自己手中,摆脱对海外生态的依附。

坚持自主,并不意味着脱离业界生态。昇腾的生态建设思路清晰而务实:底层关键能力自主可控,上层兼容主流开发习惯,逐步将自主NPU特性引入开源社区。这种“底层自主、上层兼容”的模式,既守住了自主可控的底线,又降低了开发者的迁移门槛。

如今,昇腾生态已初具规模,迁移效率大幅提升。目前昇腾社区开发者约1.3万人,月活近2000人,适配60多个基础大模型系列。模型迁移更是丝滑高效:简单模型6小时就能从CUDA迁移到CANN,比如千问3.6;架构新颖的复杂模型,也仅需一两周即可完成,彻底打消了客户的迁移顾虑。

生态建设最难的,是获得主流开源社区的认可。长期以来,海外社区主导AI开源项目,对中国软硬件存在偏见,昇腾的适配代码常被要求以插件形式存在,难以融入主流。为此,昇腾投入大量精力沟通论证,推动Triton、PyTorch等主流项目逐步支持昇腾硬件,让国产算力生态从被动适配转向主动融入。

五、面向未来:抓住Agent机遇,持续突破永不止步

当前,AI产业正迎来新的变革——Agent应用快速兴起,对时延、多轮推理、长序列处理和系统综合能力提出更高要求,也可能引发新一轮“算力荒”。这对昇腾而言,既是千载难逢的机遇,也是必须直面的挑战。

“Agent这么红火,我们当然很开心,它会带来新的算力需求。但更重要的是,要识别出真正的问题,比如编程编译速度的不足,持续投入改进。”张良的话,道出了昇腾的清醒与务实。在他看来,昇腾不满足于抓住一轮机会,而是要在每一轮产业变革中,暴露问题、修正问题、补齐能力。

回顾过往,昇腾团队既抓住过时代机遇,也走过弯路,部分问题曾被市场红利掩盖。但不变的是,他们始终保持“永远不完美,还要继续努力”的心态,持续投入、极致打磨。从910到950,从性能追赶到生态成型,从市场认可到自主可控,昇腾的每一步,都走得坚定而有力。

从“一卡难求”到撑起国产大模型半边天,从技术追赶到生态自主,华为昇腾的突围之路,是中国AI算力打破海外垄断、实现自主可控的缩影。如今,昇腾950芯片凭实力赢得市场认可,CANN生态逐步壮大,技术实力扛住顶尖模型考验,国产算力的时代已然到来。

但昇腾的故事远未结束。面对Agent时代的新需求,面对全球AI产业的激烈竞争,昇腾仍需持续投入、不断突破。相信在不久的将来,以昇腾为代表的国产算力,将彻底摆脱“卡脖子”困境,不仅撑起中国AI产业的发展,更能在全球AI舞台上,发出属于中国的最强音。