文/王新喜
2026年4月7日,中国AI圈炸了。全球顶级大模型DeepSeek官方宣布:DeepSeek下一代旗舰模型V4将完全运行于华为昇腾950PR芯片,技术架构从CUDA全面转向CANN框架。
而最新消息,DeepSeek创始人梁文锋近日在内部沟通中透露,DeepSeekV4将于4月下旬发布,中国AI产业在去“CUDA化”路上迈出关键一步。
deepseek V4跟国产AI芯片的适配,这将使得deepseek成为国内首个在推理阶段彻底摆脱英伟达算力依赖的万亿级参数大模型。
回到2025年初,DeepSeek以低成本训练的V3和R1模型震动全球,其极低的开发成本与接近甚至OpenAI的性能表现,打破了“算力决定一切”的固有认知,为全球AI发展提供了新思路,这引发美股科技板块大幅抛售,市场开始重新评估英伟达等AI算力基础设施公司的估值逻辑。
但那一轮冲击背后,DeepSeek使用的算力硬件仍然相当程度上依赖英伟达的芯片,包括出口限制相对宽松的H800型号。
随后,美国进一步收紧出口管制,英伟达最顶级的H100、H200,B200全部禁用,后来连英伟达的H20芯片也被禁止向中国出售。这实质上切断了中国AI公司通过"降规格版本"获取高性能算力的渠道。DeepSeek已经用算法优化把有限算力的性能压榨到了极致——他们早期用"混合专家"架构,把模型推理成本砍掉了90%,震惊了全球。
DeepSeek需要的不是更好的芯片,而是有自主可控的芯片可用。如今,华为已经满足了DeepSeek的诉求。
2026年4月6日,据The Information等媒体爆料,DeepSeek下一代旗舰模型V4已全面迁移至华为昇腾950PR,底层代码从CUDA重写为CANN框架。
按照行业惯例,新模型发布前通常会提前数月向芯片厂商开放测试权限,进行针对性性能优化。但DeepSeek这次选择了完全不同的路径:他们直接拒绝了英伟达的早期访问请求,反而把模型优先开放给华为和寒武纪等国产芯片厂商。
这种做法在AI圈几乎是反着来,信号却再明确不过:V4从一开始就是为国产算力量身定制,英伟达被排除在外,要彻底摆脱对美国芯片的依赖。
华为昇腾950PR芯片早在2026年3月21日就正式发布,并配套华为自研的Atlas 350加速卡方案。
根据华为公开的技术规格和第三方机构Digitimes的评测,Ascend 950PR的算力性能接近被禁英伟达H20芯片的三倍,多模态生成速度快60%,自研HBM容量达112GB,算力利用率从行业平均60%提升至85%以上,部署成本降至英伟达方案的1/3。
值得一提的是,华为昇腾950PR芯片配套华为自研的Atlas 350加速卡方案。这张加速卡,使用的是全新昇腾950PR(Ascend 950PR)处理器。其性能方面,Atlas 350的单卡算力达到了英伟达H20的2.87倍,更是国内唯一支持FP4低精度的推理产品。
FP4是一种“用精度换效率”的技术,能让大型AI模型在更少的显存中运行。原本需要4张加速卡才能支撑的700亿参数模型,现在1张卡即可轻松容纳。以700亿参数的大模型为例,原本需要140GB显存,使用FP4后仅需35GB就能流畅运行。
这意味着在相同的硬件条件下,可以部署更大规模的模型,或者支持更多的并发推理请求。
在当前“Token通胀”的时代背景下——OpenClaw的Token消耗量一个月内从806亿飙升至3580亿,增长了约3.4倍——FP4带来的效率提升,直接转化为成本优势。
华为计划2026年全年出货约75万颗该型号芯片,并已于今年1月开始向字节、阿里等主要客户发送样品测试。这么多合作伙伴支持,意味着这不只是一次技术升级,更是一次战略性的"换芯手术",国内一众厂商是真的有意识选择另外一个生态圈了。
DeepSeek V4与华为Ascend 950PR的组合,也将成为国产算力能否支撑顶级前沿模型训练的一次真实检验。
给世界第二个选择,AI大模型生态迎来iOS与安卓之争
因为美国出口管制,英伟达的高端芯片对中国市场的供应一直在收紧,DeepSeek是被现实逼出来的生存选择——谁手里有自主可控的芯片,谁就能第一时间通过自家云服务把模型跑起来,集成进AI应用里,不用看任何人的脸色,不用怕任何突如其来的管制。
DeepSeek 尽管训练端仍依赖英伟达(华为训练芯片950DT预计Q4上市),软件生态也需完善,但“昇腾+DeepSeek”组合已为国产AI开辟了成本可控、安全自主的新路径。据知情人士说,在V4训练和推理上,昇腾950PR的表现达到了预期,否则DeepSeek不会拍板全面迁移。
国产AI产业正从"被迫适应"到"主动选择"的历史性转变,这个信号会带动一批人跟进,整个国产芯片的软件生态就能慢慢活起来。
DeepSeek带头做模型原生适配,华为做芯片和底层框架,国内大厂拿订单铺场景,中国AI有望第一次形成“上游芯片-中游模型-下游应用”全链条的完整闭环。从硬件到软件,从训练到落地,全流程都握在自己手里。
而更大的意义,还在于给出世界第二个选择。在去年,DeepSeek横空出世通过技术优势在世界舞台上大放光芒,通过开源策略与低价API服务,推动全球开发者生态建设,DeepSeek是全球被引用最多的开源AI模型之一,有大量开发者在用它的代码和框架。
如果V4在昇腾上跑起来效果好,可能会在全球范围内吸引开发者顺着这条路,开始认真评估昇腾方案。
以前,搞AI大模型,基本绕不开英伟达的芯片与CUDA生态,现在华为昇腾+CANN的出现,全世界的客户有了第二选项,这意味着所有鸡蛋不用放在一个篮子里了。当年安卓替代塞班,不是因为安卓更先进,是因为给了整个行业另一个选择。
DeepSeek V4接入了华为芯片,它其实就是中国AI行业的"安卓时刻",一旦在中国打开局面,或将风靡全球,包括欧洲、东南亚的一些国家和企业,都有了一个性能同样强大的AI生态备选项。
原来围着英伟达的CUDA转的圈子,会慢慢被华为的昇腾生态吸附过来,未来的AI竞争,也将形成两大生态之争,这就像全球手机市场生态系统之争,逐步形成苹果iOS和谷歌安卓生态,形成双雄竞争的格局,以后AI芯片与算力的竞争,也将变成两大生态的竞争。
相比英伟达方案,华为芯片加V4组合,硬件采购成本降低40%,推理成本降低60%,而且在美国芯片出口管制下,国产芯片与国产模型组合能实现全链路自主可控。
也就是说,在AI硬件成本与供应链安全可控层面,中国的AI路线反而有自己的优势。这对应了东南亚、欧洲等一些国家追求降本增效,且避免被美国未来出口管制掣肘的风险。
因此,这一次DeepSeek与华为的双向奔赴的结果如何,不仅关系到DeepSeek一家公司的技术路线,也将在相当程度上决定整个中国AI产业的发展以及市场客户对国产芯片的信心走向。今天的昇腾与英伟达的差距客观存在,但这是一场持久战,关键意义在于,今天这扇门被真正推开了一条缝,接下来就能越开越大。
中国AI在未来3~5年实现算力自主,这种"应用生态突围+硬件换道"的组合拳,可能有望进一步打破算力囚牢困境,并且有望通过这条路线的成功,在全球市场打开新的局面,中美AI两大生态的较量将拉开序幕,我们拭目以待。
热门跟贴