2026年初,中国AI芯片战场进入群雄并起、优胜劣汰的关键阶段。
随着阿里发布真武810E PPU,并披露其已在阿里云部署16000卡国产万卡集群,一场围绕“谁真正掌握AI时代底层话语权”的较量,已走向商业落地的生死线。
就在2025年,昇腾因“盘古大模型套壳Qwen”陷入舆论风暴;龙芯在默默推进其全自研GPGPU;以寒武纪、摩尔线程、沐曦股份、壁仞科技、天数智芯为代表的国产GPU/ASIC阵营,则在资本与政策的双重驱动下加速商业化。
这不再是简单的芯片性能比拼,而是一场架构、软件、盈利模式与产业政策的多维博弈。
公司
芯片类型
核心特点
阿里
PPU
框架原生兼容,无需改代码,训推一体
昇腾
ASIC
推理高效,训练脆弱,CANN生态封闭
寒武纪
ASIC
聚焦推理,训练脆弱,已实现盈利
摩尔
沐曦
壁仞
天数
GPGPU
图形+AI,兼容CUDA,尚处亏损期
龙芯
GPGPU
完全自研GPU,无CUDA依赖,性能入门级
阿里真武效法谷歌模式
阿里真武810E的发布,标志着国产AI芯片的一条新路径:它没有选择在硬件架构上死磕英伟达,而是试图用软件去“架空”CUDA的壁垒。
不同于以往国产芯片往往要求开发者去适应硬件、“学方言”改代码的痛苦过程,真武810E走的是一条“软件迁就人”的路子。它通过编译器层面的深度兼容,让大多数基于主流框架(如PyTorch)开发的模型,几乎不需要改动就能直接运行。
这种“拿来即用”的兼容性,相比昇腾CANN生态那种需要开发者深度介入、手动适配算子的“硬门槛”,在商业落地上显然更具亲和力。
从硬件本身来看,96GB HBM2e显存和700GB/s的互联带宽,保证了它在处理大模型时的吞吐能力。
更关键的是,它的核心设计不再是固定的专用电路,而是灵活的通用计算阵列。
这意味着当新的AI算法出现时,它不需要重新设计芯片,往往只需要升级一下编译器软件就能支持。
但真武真正的护城河,其实不在芯片本身,而在其背后的“全栈生态”。
放眼全球,能同时把“算力芯片+云基础设施+大模型”这三块核心拼图凑齐的,除了谷歌(TPU + Google Cloud + Gemini),也就只有阿里(真武 + 阿里云 + 千问)。
这一点至关重要。
当其他厂商还在卖“裸芯片”、让客户自己去摸索适配时,阿里卖的其实是“已经验证过的算力服务”。
Qwen作为目前国产第一梯队的开源模型,已经在真武芯片上跑通了每一个细节。这种“用自家模型,验证自家芯片”的模式,才是阿里真正的底气。
它让真武810E既保留了GPGPU的通用性,又拥有了类似谷歌TPU那样的垂直整合效率。
昇腾寒武纪推理有余训练不足
阿里真武正在进行“通才”路线,那么昇腾910B和寒武纪则更像是一个极端的“特长生”。
昇腾的核心设计逻辑是“为了特定考题而生”。在处理标准化的、固定的AI任务(如推理)时,它的效率高,能追平英伟达。但这种极致的专用性,也带来了致命的弱点——它太“硬”了,缺乏变通。
本质上说,昇腾和寒武纪这类ASIC,就是以牺牲通用性能,换取特定场景的专用性能。
AI算法的迭代速度是以月为单位的。
当DeepSeek、GLM、Qwen、Kimi等新模型采用了最新的算法架构(如MoE、稀疏注意力)时,昇腾固化的硬件单元往往无法直接支持。
这就好比试卷上的题型变了,但这名考生只会背标准答案。
结果就是,为了运行新模型,开发者必须手动编写大量底层代码(算子)来填坑,或者被迫让芯片切换到低效的通用模式,导致性能出现断崖式下跌。
此外,在构建万卡集群进行大规模训练时,昇腾也暴露出了短板。相比于英伟达成熟的连接技术,昇腾在大规模并联时的通信稳定性仍有差距,频繁的故障和崩溃,让它在训练超大模型时显得力不从心。
这就是所谓的“ASIC刚性陷阱”:它在推理应用上能做到极致的性价比,但在需要灵活应变的训练和渲染场景中,却因为“偏科”而难以胜任。
2025年的“盘古套壳”风波,本质上就是因为自家AI芯片难以适应新算法的训练需求,团队才不得已使用了英伟达GPU和千问——这与其说是道德问题,不如说是技术路线带来的无奈。
无独有偶,寒武纪同样存在“ASIC刚性陷阱”,寒武纪聚焦高性能推理场景,具备能效比高优势,适合推理密集型客户。
不过,寒武纪短板也明显,那就是通用性弱,无法用于训练或图形渲染,长期面临PPU/GPGPU的生态挤压。
值得一提的是,寒武纪已经具备自我造血能力,而不是完全依然风投烧钱。2025年营收突破60亿元,净利润突破16亿元,成为国产AI芯片中唯一规模化盈利企业。
国产GPU缺乏人无我有的杀手级应用
摩尔线程、沐曦、壁仞、天数智芯均为GPGPU架构,兼容CUDA,试图复刻英伟达路径。
在技术来源上,不乏技术引进的底色,比如摩尔线程、壁仞的GPU IP就源自Imagination公司的授权。
摩尔线程主打全功能GPU,覆盖AI、图形、游戏,2025年营收约15亿元,亏损约10亿元。三年累计亏损额约59亿。
沐曦专注数据中心GPU,2025年营收约16亿元,亏损约7亿元。三年累计亏损额30.57亿。
壁仞科技高举高打,PPT很漂亮,但商业化缓慢。2025年上半年营收5890.3万,净亏损约5.5亿。三年累计亏损47.5亿。
天数智芯2025年上半年营收3.24亿,净亏损约6亿。3年累计亏损28.72亿。
这几家公司的共同特点是共同特点是高研发投入、强兼容性(支持CUDA)、但尚未盈利。它们的规划蓝图也如出一辙,那就是只要产业生态做起来,未来可对标英伟达A100。
不过,面对真武810E的框架原生路线,这些厂商仍需解决一个根本问题——CUDA兼容≠市场盈利。没有杀手级应用场景和头部客户背书,仅靠硬件参数和兼容CUDA难以突围。
龙芯GPU另辟蹊径专注细分市场
龙芯GPU完全自研,不依赖任何国外IP。其FP32算力约1.5 TFLOPS,INT8 AI算力约32 TOPS,性能相当于GTX 1050,虽落性能大幅落后于真武,但在保密办公、工控、边缘终端等场景具备不可替代性。
其软件栈基于OpenCL,并初步适配PyTorch。真正的价值在于绝对安全可控——这是英伟达、摩尔线程等GPU都无法提供的。
未来若能将GPGPU集成进CPU(如龙芯7000系列SoC),有望在端侧小模型场景中占据一席之地。
从资本狂欢到盈利分水岭
2025年是中国AI芯片的分化之年。
正所谓几家欢喜几家愁,有人弹冠相庆,有人黯然神伤。
阿里凭借千问+阿里云+真武,已构建AI全栈闭环:
真武810E已在青海联通部署16000卡绿色智算集群;
服务小鹏、国家电网、中科院等400+客户;
Qwen开源模型衍生超20万个,下载破10亿次,反哺芯片适配。
阿里不卖芯片,只卖算力的模式,规避了生态冷启动难题,直接绑定高价值客户。不仅在技术上实现全栈闭环,在商业上也实现了正循环。
寒武纪是当下国产AI芯片中唯一规模化盈利企业,稳坐ASIC阵营AI芯片头把交椅,用实际行动证明垂直场景+高能效比+政策红利仍是可行路径。
摩尔线程、沐曦、壁仞、天数智芯在资本市场备受追捧,且有美国英伟达GPGPU禁令倒逼下的国产替代推波助澜,但若不能在未来几年内证明商业化能力,恐将陷入“有技术、无市场”的困境。
昇腾则在“盘古套壳”事件后,舆论神话破灭,风评口碑两极分化,在业内人士中路人缘差,在真实开发者生态中影响力急剧萎缩,高度依赖政府、国企采购,成为依靠政策红利的“政商神话”。
龙芯不参与云端军备竞赛,而是押注端侧小模型+分布式学习,在本地推理等“数据不出域”场景中,打造端侧AI的“安全岛”。
维度
主导者
核心战场
关键能力
云端大模型
阿里(PPU)
万卡集群、互联网
编译器+互联+生态+训练效率
高性能推理
寒武纪(ASIC)
互联网、国企
能效比、性价比
通用GPU生态
摩尔/沐曦/壁仞/天数
科研、中小企业、图形渲染
CUDA兼容
政务市场
昇腾(ASIC)
政府、国企
政策绑定、政商神话
安全端侧
龙芯(GPGPU)
保密PC、工控、ATM
端侧AI“安全岛”
真正的国产替代是能用而非能吹
昇腾盘古的神话破灭,源于用“套壳”和指鹿为马式营销掩盖技术缺陷;
寒武纪在商业上的成功,证明了AISC在专用场景的价值;
摩尔线程、沐曦、壁仞、天数智芯豪赌GPUGPU,是对英伟达的模仿和追赶;
龙芯的坚守,是端侧AI安全的最后防线;
阿里真武则让中国开发者第一次拥有了不依赖CUDA,又能高效跑大模型的国产选择。
未来,中国AI芯片将从“百花齐放”走向“优胜劣汰”。
能活下来的,不是估值最高的,不是PPT最漂亮的,不是政府输血最多的,而是真正解决客户问题、创造商业价值的。
能用而非能吹,这才是检验AI芯片国产替代的终极标准。
热门跟贴