2026年初,中国AI芯片战场进入群雄并起、优胜劣汰的关键阶段。

随着阿里发布真武810E PPU,并披露其已在阿里云部署16000卡国产万卡集群,一场围绕“谁真正掌握AI时代底层话语权”的较量,已走向商业落地的生死线。

就在2025年,昇腾因“盘古大模型套壳Qwen”陷入舆论风暴;龙芯在默默推进其全自研GPGPU;以寒武纪、摩尔线程、沐曦股份、壁仞科技、天数智芯为代表的国产GPU/ASIC阵营,则在资本与政策的双重驱动下加速商业化。

这不再是简单的芯片性能比拼,而是一场架构、软件、盈利模式与产业政策的多维博弈。

打开网易新闻 查看精彩图片

公司

芯片类型

核心特点

阿里

PPU

框架原生兼容,无需改代码,训推一体

昇腾

ASIC

推理高效,训练脆弱,CANN生态封闭

寒武纪

ASIC

聚焦推理,训练脆弱,已实现盈利

摩尔

沐曦

壁仞

天数

GPGPU

图形+AI,兼容CUDA,尚处亏损期

龙芯

GPGPU

完全自研GPU,无CUDA依赖,性能入门级

阿里真武效法谷歌模式

阿里真武810E的发布,标志着国产AI芯片的一条新路径:它没有选择在硬件架构上死磕英伟达,而是试图用软件去“架空”CUDA的壁垒。

不同于以往国产芯片往往要求开发者去适应硬件、“学方言”改代码的痛苦过程,真武810E走的是一条“软件迁就人”的路子。它通过编译器层面的深度兼容,让大多数基于主流框架(如PyTorch)开发的模型,几乎不需要改动就能直接运行。

这种“拿来即用”的兼容性,相比昇腾CANN生态那种需要开发者深度介入、手动适配算子的“硬门槛”,在商业落地上显然更具亲和力。

从硬件本身来看,96GB HBM2e显存和700GB/s的互联带宽,保证了它在处理大模型时的吞吐能力。

更关键的是,它的核心设计不再是固定的专用电路,而是灵活的通用计算阵列。

这意味着当新的AI算法出现时,它不需要重新设计芯片,往往只需要升级一下编译器软件就能支持。

但真武真正的护城河,其实不在芯片本身,而在其背后的“全栈生态”。

放眼全球,能同时把“算力芯片+云基础设施+大模型”这三块核心拼图凑齐的,除了谷歌(TPU + Google Cloud + Gemini),也就只有阿里(真武 + 阿里云 + 千问)。

这一点至关重要。

当其他厂商还在卖“裸芯片”、让客户自己去摸索适配时,阿里卖的其实是“已经验证过的算力服务”。

Qwen作为目前国产第一梯队的开源模型,已经在真武芯片上跑通了每一个细节。这种“用自家模型,验证自家芯片”的模式,才是阿里真正的底气。

它让真武810E既保留了GPGPU的通用性,又拥有了类似谷歌TPU那样的垂直整合效率。

打开网易新闻 查看精彩图片

昇腾寒武纪推理有余训练不足

阿里真武正在进行“通才”路线,那么昇腾910B和寒武纪则更像是一个极端的“特长生”。

昇腾的核心设计逻辑是“为了特定考题而生”。在处理标准化的、固定的AI任务(如推理)时,它的效率高,能追平英伟达。但这种极致的专用性,也带来了致命的弱点——它太“硬”了,缺乏变通。

本质上说,昇腾和寒武纪这类ASIC,就是以牺牲通用性能,换取特定场景的专用性能。

AI算法的迭代速度是以月为单位的。

当DeepSeek、GLM、Qwen、Kimi等新模型采用了最新的算法架构(如MoE、稀疏注意力)时,昇腾固化的硬件单元往往无法直接支持。

这就好比试卷上的题型变了,但这名考生只会背标准答案。

结果就是,为了运行新模型,开发者必须手动编写大量底层代码(算子)来填坑,或者被迫让芯片切换到低效的通用模式,导致性能出现断崖式下跌。

此外,在构建万卡集群进行大规模训练时,昇腾也暴露出了短板。相比于英伟达成熟的连接技术,昇腾在大规模并联时的通信稳定性仍有差距,频繁的故障和崩溃,让它在训练超大模型时显得力不从心。

这就是所谓的“ASIC刚性陷阱”:它在推理应用上能做到极致的性价比,但在需要灵活应变的训练和渲染场景中,却因为“偏科”而难以胜任。

2025年的“盘古套壳”风波,本质上就是因为自家AI芯片难以适应新算法的训练需求,团队才不得已使用了英伟达GPU和千问——这与其说是道德问题,不如说是技术路线带来的无奈。

无独有偶,寒武纪同样存在“ASIC刚性陷阱”,寒武纪聚焦高性能推理场景,具备能效比高优势,适合推理密集型客户。

不过,寒武纪短板也明显,那就是通用性弱,无法用于训练或图形渲染,长期面临PPU/GPGPU的生态挤压。

值得一提的是,寒武纪已经具备自我造血能力,而不是完全依然风投烧钱。2025年营收突破60亿元,净利润突破16亿元,成为国产AI芯片中唯一规模化盈利企业。

打开网易新闻 查看精彩图片

国产GPU缺乏人无我有的杀手级应用

摩尔线程、沐曦、壁仞、天数智芯均为GPGPU架构,兼容CUDA,试图复刻英伟达路径。

在技术来源上,不乏技术引进的底色,比如摩尔线程、壁仞的GPU IP就源自Imagination公司的授权。

摩尔线程主打全功能GPU,覆盖AI、图形、游戏,2025年营收约15亿元,亏损约10亿元。三年累计亏损额约59亿。

沐曦专注数据中心GPU,2025年营收约16亿元,亏损约7亿元。三年累计亏损额30.57亿。

壁仞科技高举高打,PPT很漂亮,但商业化缓慢。2025年上半年营收5890.3万,净亏损约5.5亿。三年累计亏损47.5亿。

天数智芯2025年上半年营收3.24亿,净亏损约6亿。3年累计亏损28.72亿。

这几家公司的共同特点是共同特点是高研发投入、强兼容性(支持CUDA)、但尚未盈利。它们的规划蓝图也如出一辙,那就是只要产业生态做起来,未来可对标英伟达A100。

不过,面对真武810E的框架原生路线,这些厂商仍需解决一个根本问题——CUDA兼容≠市场盈利。没有杀手级应用场景和头部客户背书,仅靠硬件参数和兼容CUDA难以突围。

打开网易新闻 查看精彩图片

龙芯GPU另辟蹊径专注细分市场

龙芯GPU完全自研,不依赖任何国外IP。其FP32算力约1.5 TFLOPS,INT8 AI算力约32 TOPS,性能相当于GTX 1050,虽落性能大幅落后于真武,但在保密办公、工控、边缘终端等场景具备不可替代性。

其软件栈基于OpenCL,并初步适配PyTorch。真正的价值在于绝对安全可控——这是英伟达、摩尔线程等GPU都无法提供的。

未来若能将GPGPU集成进CPU(如龙芯7000系列SoC),有望在端侧小模型场景中占据一席之地。

打开网易新闻 查看精彩图片

资本狂欢盈利分水岭

2025年是中国AI芯片的分化之年。

正所谓几家欢喜几家愁,有人弹冠相庆,有人黯然神伤。

阿里凭借千问+阿里云+真武,已构建AI全栈闭环:

真武810E已在青海联通部署16000卡绿色智算集群;

服务小鹏、国家电网、中科院等400+客户;

Qwen开源模型衍生超20万个,下载破10亿次,反哺芯片适配。

阿里不卖芯片,只卖算力的模式,规避了生态冷启动难题,直接绑定高价值客户。不仅在技术上实现全栈闭环,在商业上也实现了正循环。

寒武纪是当下国产AI芯片中唯一规模化盈利企业,稳坐ASIC阵营AI芯片头把交椅,用实际行动证明垂直场景+高能效比+政策红利仍是可行路径。

摩尔线程、沐曦、壁仞、天数智芯在资本市场备受追捧,且有美国英伟达GPGPU禁令倒逼下的国产替代推波助澜,但若不能在未来几年内证明商业化能力,恐将陷入“有技术、无市场”的困境。

昇腾则在“盘古套壳”事件后,舆论神话破灭,风评口碑两极分化,在业内人士中路人缘差,在真实开发者生态中影响力急剧萎缩,高度依赖政府、国企采购,成为依靠政策红利的“政商神话”。

龙芯不参与云端军备竞赛,而是押注端侧小模型+分布式学习,在本地推理等“数据不出域”场景中,打造端侧AI的“安全岛”。

维度

主导者

核心战场

关键能力

云端大模型

阿里(PPU)

万卡集群、互联网

编译器+互联+生态+训练效率

高性能推理

寒武纪(ASIC)

互联网、国企

能效比、性价比

通用GPU生态

摩尔/沐曦/壁仞/天数

科研、中小企业、图形渲染

CUDA兼容

政务市场

昇腾(ASIC)

政府、国企

政策绑定、政商神话

安全端侧

龙芯(GPGPU)

保密PC、工控、ATM

端侧AI“安全岛”

真正的国产替代是能用而非能吹

昇腾盘古的神话破灭,源于用“套壳”和指鹿为马式营销掩盖技术缺陷;
寒武纪在商业上的成功,证明了AISC在专用场景的价值;
摩尔线程、沐曦、壁仞、天数智芯豪赌GPUGPU,是对英伟达的模仿和追赶;
龙芯的坚守,是端侧AI安全的最后防线;
阿里真武则让中国开发者第一次拥有了不依赖CUDA,又能高效跑大模型的国产选择。

未来,中国AI芯片将从“百花齐放”走向“优胜劣汰”。

能活下来的,不是估值最高的,不是PPT最漂亮的,不是政府输血最多的,而是真正解决客户问题、创造商业价值的。

能用而非能吹,这才是检验AI芯片国产替代的终极标准。