从盘古套壳到阿里真武 AI芯片大浪淘沙|gpu|大浪淘沙|套壳|知名企业|英伟达|阿里巴巴集团

2026年初，中国AI芯片战场进入群雄并起、优胜劣汰的关键阶段。

随着阿里发布真武810E PPU，并披露其已在阿里云部署16000卡国产万卡集群，一场围绕“谁真正掌握AI时代底层话语权”的较量，已走向商业落地的生死线。

就在2025年，昇腾因“盘古大模型套壳Qwen”陷入舆论风暴；龙芯在默默推进其全自研GPGPU；以寒武纪、摩尔线程、沐曦股份、壁仞科技、天数智芯为代表的国产GPU/ASIC阵营，则在资本与政策的双重驱动下加速商业化。

这不再是简单的芯片性能比拼，而是一场架构、软件、盈利模式与产业政策的多维博弈。

公司

芯片类型

核心特点

阿里

PPU

框架原生兼容，无需改代码，训推一体

昇腾

ASIC

推理高效，训练脆弱，CANN生态封闭

寒武纪

ASIC

聚焦推理，训练脆弱，已实现盈利

摩尔

沐曦

壁仞

天数

GPGPU

图形+AI，兼容CUDA，尚处亏损期

龙芯

GPGPU

完全自研GPU，无CUDA依赖，性能入门级

阿里真武效法谷歌模式

阿里真武810E的发布，标志着国产AI芯片的一条新路径：它没有选择在硬件架构上死磕英伟达，而是试图用软件去“架空”CUDA的壁垒。

不同于以往国产芯片往往要求开发者去适应硬件、“学方言”改代码的痛苦过程，真武810E走的是一条“软件迁就人”的路子。它通过编译器层面的深度兼容，让大多数基于主流框架（如PyTorch）开发的模型，几乎不需要改动就能直接运行。

这种“拿来即用”的兼容性，相比昇腾CANN生态那种需要开发者深度介入、手动适配算子的“硬门槛”，在商业落地上显然更具亲和力。

从硬件本身来看，96GB HBM2e显存和700GB/s的互联带宽，保证了它在处理大模型时的吞吐能力。

更关键的是，它的核心设计不再是固定的专用电路，而是灵活的通用计算阵列。

这意味着当新的AI算法出现时，它不需要重新设计芯片，往往只需要升级一下编译器软件就能支持。

但真武真正的护城河，其实不在芯片本身，而在其背后的“全栈生态”。

放眼全球，能同时把“算力芯片+云基础设施+大模型”这三块核心拼图凑齐的，除了谷歌（TPU + Google Cloud + Gemini），也就只有阿里（真武 + 阿里云 + 千问）。

这一点至关重要。

当其他厂商还在卖“裸芯片”、让客户自己去摸索适配时，阿里卖的其实是“已经验证过的算力服务”。

Qwen作为目前国产第一梯队的开源模型，已经在真武芯片上跑通了每一个细节。这种“用自家模型，验证自家芯片”的模式，才是阿里真正的底气。

它让真武810E既保留了GPGPU的通用性，又拥有了类似谷歌TPU那样的垂直整合效率。

昇腾寒武纪推理有余训练不足

阿里真武正在进行“通才”路线，那么昇腾910B和寒武纪则更像是一个极端的“特长生”。

昇腾的核心设计逻辑是“为了特定考题而生”。在处理标准化的、固定的AI任务（如推理）时，它的效率高，能追平英伟达。但这种极致的专用性，也带来了致命的弱点——它太“硬”了，缺乏变通。

本质上说，昇腾和寒武纪这类ASIC，就是以牺牲通用性能，换取特定场景的专用性能。

AI算法的迭代速度是以月为单位的。

当DeepSeek、GLM、Qwen、Kimi等新模型采用了最新的算法架构（如MoE、稀疏注意力）时，昇腾固化的硬件单元往往无法直接支持。

这就好比试卷上的题型变了，但这名考生只会背标准答案。

结果就是，为了运行新模型，开发者必须手动编写大量底层代码（算子）来填坑，或者被迫让芯片切换到低效的通用模式，导致性能出现断崖式下跌。

此外，在构建万卡集群进行大规模训练时，昇腾也暴露出了短板。相比于英伟达成熟的连接技术，昇腾在大规模并联时的通信稳定性仍有差距，频繁的故障和崩溃，让它在训练超大模型时显得力不从心。

这就是所谓的“ASIC刚性陷阱”：它在推理应用上能做到极致的性价比，但在需要灵活应变的训练和渲染场景中，却因为“偏科”而难以胜任。

2025年的“盘古套壳”风波，本质上就是因为自家AI芯片难以适应新算法的训练需求，团队才不得已使用了英伟达GPU和千问——这与其说是道德问题，不如说是技术路线带来的无奈。

无独有偶，寒武纪同样存在“ASIC刚性陷阱”，寒武纪聚焦高性能推理场景，具备能效比高优势，适合推理密集型客户。

不过，寒武纪短板也明显，那就是通用性弱，无法用于训练或图形渲染，长期面临PPU/GPGPU的生态挤压。

值得一提的是，寒武纪已经具备自我造血能力，而不是完全依然风投烧钱。2025年营收突破60亿元，净利润突破16亿元，成为国产AI芯片中唯一规模化盈利企业。

国产GPU缺乏人无我有的杀手级应用

摩尔线程、沐曦、壁仞、天数智芯均为GPGPU架构，兼容CUDA，试图复刻英伟达路径。

在技术来源上，不乏技术引进的底色，比如摩尔线程、壁仞的GPU IP就源自Imagination公司的授权。

摩尔线程主打全功能GPU，覆盖AI、图形、游戏，2025年营收约15亿元，亏损约10亿元。三年累计亏损额约59亿。

沐曦专注数据中心GPU，2025年营收约16亿元,亏损约7亿元。三年累计亏损额30.57亿。

壁仞科技高举高打，PPT很漂亮，但商业化缓慢。2025年上半年营收5890.3万，净亏损约5.5亿。三年累计亏损47.5亿。

天数智芯2025年上半年营收3.24亿，净亏损约6亿。3年累计亏损28.72亿。

这几家公司的共同特点是共同特点是高研发投入、强兼容性（支持CUDA）、但尚未盈利。它们的规划蓝图也如出一辙，那就是只要产业生态做起来，未来可对标英伟达A100。

不过，面对真武810E的框架原生路线，这些厂商仍需解决一个根本问题——CUDA兼容≠市场盈利。没有杀手级应用场景和头部客户背书，仅靠硬件参数和兼容CUDA难以突围。

龙芯GPU另辟蹊径专注细分市场

龙芯GPU完全自研，不依赖任何国外IP。其FP32算力约1.5 TFLOPS，INT8 AI算力约32 TOPS，性能相当于GTX 1050，虽落性能大幅落后于真武，但在保密办公、工控、边缘终端等场景具备不可替代性。

其软件栈基于OpenCL，并初步适配PyTorch。真正的价值在于绝对安全可控——这是英伟达、摩尔线程等GPU都无法提供的。

未来若能将GPGPU集成进CPU（如龙芯7000系列SoC），有望在端侧小模型场景中占据一席之地。

从资本狂欢到盈利分水岭

2025年是中国AI芯片的分化之年。

正所谓几家欢喜几家愁，有人弹冠相庆，有人黯然神伤。

阿里凭借千问+阿里云+真武，已构建AI全栈闭环：

真武810E已在青海联通部署16000卡绿色智算集群；

服务小鹏、国家电网、中科院等400+客户；

Qwen开源模型衍生超20万个，下载破10亿次，反哺芯片适配。

阿里不卖芯片，只卖算力的模式，规避了生态冷启动难题，直接绑定高价值客户。不仅在技术上实现全栈闭环，在商业上也实现了正循环。

寒武纪是当下国产AI芯片中唯一规模化盈利企业，稳坐ASIC阵营AI芯片头把交椅，用实际行动证明垂直场景+高能效比+政策红利仍是可行路径。

摩尔线程、沐曦、壁仞、天数智芯在资本市场备受追捧，且有美国英伟达GPGPU禁令倒逼下的国产替代推波助澜，但若不能在未来几年内证明商业化能力，恐将陷入“有技术、无市场”的困境。

昇腾则在“盘古套壳”事件后，舆论神话破灭，风评口碑两极分化，在业内人士中路人缘差，在真实开发者生态中影响力急剧萎缩，高度依赖政府、国企采购，成为依靠政策红利的“政商神话”。

龙芯不参与云端军备竞赛，而是押注端侧小模型+分布式学习，在本地推理等“数据不出域”场景中，打造端侧AI的“安全岛”。

维度

主导者

核心战场

关键能力

云端大模型

阿里（PPU）

万卡集群、互联网

编译器+互联+生态+训练效率

高性能推理

寒武纪（ASIC）

互联网、国企

能效比、性价比

通用GPU生态

摩尔/沐曦/壁仞/天数

科研、中小企业、图形渲染

CUDA兼容

政务市场

昇腾（ASIC）

政府、国企

政策绑定、政商神话

安全端侧

龙芯（GPGPU）

保密PC、工控、ATM

端侧AI“安全岛”

真正的国产替代是能用而非能吹

昇腾盘古的神话破灭，源于用“套壳”和指鹿为马式营销掩盖技术缺陷；
寒武纪在商业上的成功，证明了AISC在专用场景的价值；
摩尔线程、沐曦、壁仞、天数智芯豪赌GPUGPU，是对英伟达的模仿和追赶；
龙芯的坚守，是端侧AI安全的最后防线；
阿里真武则让中国开发者第一次拥有了不依赖CUDA，又能高效跑大模型的国产选择。

未来，中国AI芯片将从“百花齐放”走向“优胜劣汰”。

能活下来的，不是估值最高的，不是PPT最漂亮的，不是政府输血最多的，而是真正解决客户问题、创造商业价值的。

能用而非能吹，这才是检验AI芯片国产替代的终极标准。