打开网易新闻 查看精彩图片

文:任泽平团队

2025 年,全球 AI爆发点燃算力需求。当前的全球算力格局,呈现出一超多强、竞争加剧的态势。英伟达凭借 CUDA 生态的护城河和 H/B 系列芯片,基本垄断了全球AI算力。

与此同时,国产算力产业快速崛起、国产替代,从华为昇腾、寒武纪,到沐曦、摩尔线程等加速发展,国产算力正在蓄势爆发。

1 英伟达的背后是美国AI战略和国家力量

英伟达作为全球龙头GPU公司,其核心是“三大业务+CUDA生态”,承载着美国AI和半导体战略构想。

英伟达的三大主要业务:

业务一:数据中心业务。直接服务于全球AI基础设施建设,包含计算、网络、系统级平台,其销售模式也不再只是售卖芯片,而是为各行业提供全栈解决方案。产品包括Blackwell架构GPU、Hopper架构GPU、NVLink、InfiniBand、Spectrum-X以太网等。

业务二:消费显卡业务。从纯游戏市场转型成为融合AI入口,其新一代发布显卡在迎合传统游戏市场的基础上,侧重于AI大模型的能力,可以满足本地化AI部署需求,成为开发者生态扩大基础。主要是GeForce RTX系列和Project Digits等AI PC产品。

业务三:具身智能应用。被英伟达视作未来增长引擎,主要有机器人、智能驾驶、世界模型三大类。比如,机器人基础模型的Isaac GR00T系列,用于仿真与开发平台的Omniverse(数字孪生)、Isaac Sim,还有AI模型与引擎的Cosmos世界模型、Cosmos Reason VLM、Newton物理引擎。

CUDA生态是英伟达垄断GPU行业的核心护城河。CUDA是英伟达自2007年就搭建的软件编程模型,绑定其GPU产品,随着GPU发展迭代,其功能和应用范围也不断扩大,开发者的投入与CUDA深度绑定,构建了一个庞大的、自我循环、自我强化的生态平台。

英伟达的背后是美国政府加强半导体产业链、确保AI技术主导权的战略构想美国对英伟达的支持已经从市场层面的扶持,升级为国家力量的系统性工程。不仅将英伟达直接纳入多个国家战略计划和科研基础设施,为其提供大规模、高价值的订单,还保障供应链安全并享受豁免优惠,比如促成半导体上游关键企业迁移美国本土等。同时,也在确保美国本土企业优先获得英伟达最新算力,巩固其领先地位,加速技术迭代与生态扩张。

打开网易新闻 查看精彩图片

2 中国需要自己的英伟达

中国需要自己的“英伟达”,核心原因远不止于制造一款高性能GPU。

从国家战略角度,关乎当下科技自主权,产业链安全,以及全球AI竞赛领导权。

从产业角度,是加速推动半导体行业全链条国产化,从成熟制程迈向高性能芯片的自主可控。

从企业的角度,是需要具有持续技术创新力和产品实力的中国GPU龙头领军。

当前中国GPU力量正在崛起,GPU实现国产替代是大势所趋。2024年中国半导体自给率达到24%,同比增长4pct;其中AI领域半导体自给率已达到三分之一,相较于2023年显著提升,仍有大幅提升空间。

长期看,中国的优势在完善的产业链、庞大市场和应用空间,实现芯片行业的大规模降本和全产业链突破只是时间问题以光伏与新能源汽车产业为例。20年前,光伏技术掌握在欧美企业手中,价格昂贵。中国企业通过技术引进再创新,发挥制造优势和规模效应降本,最终实现了绝对领先。新能源汽车最早也是美国领先,在三电技术上实现突破后,中国新能源车企凭借完整的工业体系和敏锐的市场洞察,形成了产业链整合,主导全球新能源汽车行业。

芯片行业的挑战更复杂,但中国从技术追赶到全球领先的逻辑不会改变

一是国家战略确保AI产业发展自主权,政策强力推动。从“十四五”规划重视芯片自给率,2024年七部门《关于推动未来产业创新发展的实施意见》加快GPU领域突破;到2025年下半年的《电子信息制造业2025-2026方案》强调推动AI终端创新应用;同期证监会推出科创板“1+6”新政引导AI和芯片企业发展,产业和市场政策组合夯实国产替代基础。

二是市场高增速催化。据测算,2024年起全球云AI市场规模复合年增长率达到28%,到2027年将达2390亿美元,中国市场需求占全球1/3,市场增量约800亿美元。先是公有云和国资智算中心实现规模化替代,国产GPU获得稳定份额后,未来3-5年完善软件生态和工艺进步,形成更广泛的全市场竞争力。

三是企业竞争力提升。中国芯片产业的各环节企业都在技术突破期。华为以全栈自研的解决方案引领国产替代;摩尔线程从消费级GPU切入AI智算;中兴通讯的5nm制程ASIC开始流片;中微公司介质刻蚀机已进入台积电5nm产线;中芯国际步入先进制程良率和产能突破期。中国半导体产业的快速进步已成趋势。

3 中国AI芯片:从01,快速崛起

根据年市场份额和出货表现,中国AI芯片市场的“七小龙”初现端倪:华为昇腾、昆仑芯、寒武纪、天数智芯、燧原科技、沐曦股份、摩尔线程。但是市场的竞争格局远未定型,国产算力仍处于征途中。

AI芯片有通用型和专用型两种。通用型芯片是“通才”,利用并行处理能力来加速各种计算任务,不局限于特定的应用领域,旨在提供一个灵活的、可编程的平台,能够适应多种不同的计算需求。通用型AI芯片主要指通用GPU,代表企业英伟达,芯片型号有B200、H200等。专用型芯片是“专才”,是专为特定应用或领域定制的计算架构,旨在针对某一特定任务进行优化,优势在于执行该任务时性能极强、能效比极高、成本可能更低;劣势是功能固化、灵活性差。专用型AI芯片有ASIC和FPGA两种,ASIC讨论度更高,代表厂商是谷歌,其TPU就是一种ASIC芯片。

总体格局上,GPU占据绝对的AI主流地位,ASIC则是崛起中的支线力量。全球AI芯片市场由GPU巨头英伟达垄断,是绝对的行业领导者,占据超过80%的全球市场份额。ASIC架构则是快速发展的一股支线力量,代表厂商是谷歌,其在全球ASIC出货量占比超70%,今年11月谷歌第七代TPU发布,迅速造成对英伟达GPU垄断叙事的冲击:内部,谷歌Gemini3 Pro大模型使用自研TPU训练;外部,尽管其TPU 暂未向外部客户直接销售,仅通过谷歌云提供服务,但是与Meta的合作意向已经达成,后者计划2026年通过谷歌云租用算力,从2027年起在自己的数据中心部署谷歌TPU。

在全球AI竞争加剧和算力基础设施自主性需求日益迫切的双重背景下,中国本土AI芯片企业也加速发展,但总体上仍处于“从0到1”的初期阶段,尚未形成明朗的竞争格局,GPU和ASIC两种架构并行发展、各有侧重。

我国本土AI芯片企业中,GPU路线的有沐曦、海光信息、天数智芯、壁仞科技、摩尔线程;ASIC路线的有华为海思(华为系)、寒武纪、昆仑芯(百度系)、平头哥(阿里系)、燧原科技

都是Fabless模式,即公司主体负责芯片的研发、设计与销售,生产环节由专业的外协厂商完成,主要包括晶圆代工厂和封装测试厂,也包括板卡加工服务等等

打开网易新闻 查看精彩图片

中国本土AI芯片企业在全球市场份额合计不足1%,当下主要是国产替代逻辑。IDC数据显示,本土AI芯片厂商的国内市场占有率正在快速提升,2024年出货量82万张,渗透率约30%;相较2023年15%的国产渗透率有明显提升。

分类看,GPU服务器在中国加速服务器市场依然是主导地位,占比近70%;ASIC 和 FPGA等非GPU加速服务器高速增长,占比约30%。

按企业看,华为昇腾销量64万,在中国AI芯片市场占23%,是本土第一品牌;昆仑芯(百度系)6.9万、天数智芯3.8万、寒武纪2.6万、沐曦2.4万、燧原科技1.3万,其他品牌销量未过万

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

综合来看,在ASIC路线上,华为昇腾领先。通用GPU路线并未形成鲜明的格局,沐曦股份营收小幅领先。

华为昇腾可以说是国产算力的“定海神针”,定位是 ASIC专用型计算架构。作为拥有全栈自研能力的巨头,其昇腾 910B/C系列已在大型智算中心规模化部署。华为升腾的核心竞争力是 CANN 异构计算架构,已建立起坚固的闭环生态。2024年,华为昇腾在中国 A 芯片市场份额达 23%,稳居本土第一品牌。

寒武纪,作为国内最早的AI芯片上市企业,寒武纪深耕专用架构ASIC/DSA。核心竞争力是云边端一体化开发环境,在特定算子下能效比极高。2024年智能芯片及加速卡收入约11.7亿元,主要服务于政府智算中心及特定行业。

昆仑芯脱胎于百度AI芯片部门,是典型的“大厂底座”与“应用驱动”派代表 。凭借自研的XPU架构,属于ASIC/DSA路线,深度适配百度文心大模型及飞桨等生态,在自然语言处理、搜索推荐等垂直场景拥有极高的迭代效率 。2024年其在中国AI芯片出货量占比约3%,位列本土品牌前三,是国产算力排位赛中从互联网内循环跨向通用市场大循环的标杆。

燧原科技也是国产算力阵营中深耕“专才”路线的典型,背靠第一大股东腾讯提供的强大应用生态资源,在政务MaaS(模型即服务)等实战场景中展现出优势。作为主攻ASIC/DSA专用计算架构的代表,燧原科技于2024年占据了约1%的市场份额。

沐曦股份定位是通用 GPU 架构,核心团队有高端GPU设计背景。沐曦的优势是走自研架构+高度兼容 CUDA路线,主打的是平滑迁移,让开发者能以最低成本从英伟达阵营切换过来。其主力产品曦云c500系列,综合性能对标英伟达A100,在2024年实现7.2亿元的收入,占主营业务收入97%以上。但产品结构单一也有一定短板。2024年智算推理系列(曦思 N 系列)的收入占比不到 1%,高度依赖训推一体芯片的销售。同时,公司仍处于巨额亏损阶段,盈亏平衡点最早也要到 2026 年才能看到。

摩尔线程定位全功能 GPU,兼顾图形渲染消费级显卡与AI计算。优势是依托 MUSA的架构,让产品一卡多用:既能做动画渲染、游戏画面、虚拟场景,又能搞定训练 AI大模型、跑AIGC生成内容,还能万卡集群、相当于万卡一起干活。但短板是2024年营业收入约4.38 亿元,虽有增长,但远低于寒武纪和海光信息等成熟厂商。由于战线拉得太长,在每个细分市场都要面对英伟达及国产专项厂商的竞争,是其隐忧。

天数智芯是通用架构路线的坚定践行者。2024年其凭借约1%的市场份额跻身本土品牌出货量前五,展现出较早的商业化落地能力。在技术路径上,天数智芯坚持GPGPU设计,通过兼容AMD ROCm等开源生态来降低开发者的迁移门槛,产品全面覆盖AI训练、推理及大规模通用计算场景。

打开网易新闻 查看精彩图片

4 GPU国产化关键是产业自主和软件生态

中国GPU国产化要突破的重点领域有两类:一是产业上,从EDA、IP、设备、材料到晶圆代工的半导体产业链都需要攻坚。二是软件端,面对CUDA生态近20年的“护城河”。国产替代非一朝一夕,高端芯片领域挑战依然艰巨。

打开网易新闻 查看精彩图片

4.1 EDA和IP:点工具突破、GPU核心仍薄弱

EDA(电子设计自动化)和IP(半导体知识产权)处于半导体产业最上游。EDA是芯片设计的一整套工具链,设计师用其进行数字设计、模拟、验证概念,并最终生成芯片制造图纸。IP是已验证过的成熟模块,芯片公司以自研、购买、或获得授权使用IP的方式来搭建各项功能,在EDA的辅助下集成为芯片图纸。

EDA和IP自主是芯片产业国产化的基石。目前先进制程芯片所采用的FinFET正逐步升级为下一代的GAAFET架构,有更优秀的静电特性和功耗、频率,是发展2nm芯片的关键。而先进制程芯片的数字设计、线路布局、验证等环节高度依赖最新EDA工具和IP。IP能加快设计和迭代的速度,先进制程芯片设计也依赖IP的更新。

全球EDA市场主要由三家美国公司:新思科技(Synopsys)、铿腾电子(Cadence)、西门子EDA(Siemens EDA,原明导国际)主导。2024年三家的市场份额分别为31%、30%、13%。中国EDA的主要参与者包括华大九天、概伦电子、广立微、芯和半导体、芯华章与鸿芯微纳。

IP市场,安谋(ARM,软银旗下)和新思两家占有全球2/3的份额,铿腾和Alphawave(高通收购)合计9%。其中,安谋主要市场在移动计算,后三者主要市场在高性能计算。国内半导体IP的主要参与者有芯原股份、芯耀辉、锐成芯微、芯来科技、寒武纪、平头哥(阿里旗下)。

EDA的突破在于“点工具”,比如原理图和PCB设计工具上已经完全自主,在模拟芯片EDA领域,也已经有国内厂商实现了全流程自主,但数字芯片、系统级芯片的全流程领域还存在空缺。由于设计一颗先进制程芯片需要上百种工具协同,而国际EDA工具与台积电的工艺设计套件深度绑定,因此EDA自主化和晶圆代工的国产替代需同步实现。

IP的挑战在于架构创新和生态独立。常见IP有处理器核心、接口IP、基础IP、GPU专用IP。其中,接口IP过去主要由新思和铿腾提供,现在是国产替代较快的环节,并有国内IP授权给多家国内外芯片公司的成功案例。

同时,GPU IP自研起步,通常国内GPU厂商采用“IP授权”模式开发芯片,但随着下游芯片设计企业对本土IP采购意愿增强,GPU核心IP自研是大势所趋,但生态壁垒也很明显。由于GPU设计的特殊性,不同模块的IP来源通常分散。以英伟达为例,其流处理器架构、并行计算架构、张量核心等关键IP都由自主设计,但部分特定功能也需要采用第三方IP来开发。目前,实现纯粹国产GPU核心IP还不具条件,而高性能的GPU架构设计也才起步,自主GPU IP生态搭建是长期工程,国内需要加紧人才培育和市场经验积累。

4.2 晶圆制造和设备:良率、产能、光刻设备攻坚

芯片制造商也被称为晶圆代工厂(Foundry),职责是将设计图纸上的芯片实际制造出来。也是整个半导体产业中价值含量最高、流程最复杂、资本开支最大的环节。

根据2025年Q2数据,全球近七成的晶圆代工市场由台积电(TSMC)独占,三星市占率达到7.3%,中芯国际升至全球第三,市占率5.1%,华虹集团也跻身全球第六,份额2.5%。目前,中芯国际、华虹半导体已具备28nm及以上芯片的大规模、高良率的制造能力,能满足大部分中低端GPU和国产GPU初代产品的制造需求,总体看28nm及以上的产能自给率已超过40%。

14nm及以下的先进制程代工还需突破中芯国际是国产GPU产能的主要来源,目前中芯国际已实现14nm量产,但良率和产能有限。由于无法获取EUV光刻机,且材料方面的超高纯度化学品、光刻胶等仍依赖进口,因此7nm、5nm等更先进制程的研发和量产仍需攻坚。好在国产DUV(深紫外)光刻设备研发已经落地。由深圳市政府投资的俞亮昇,已成功研发DUV光刻设备,目前正在测试阶段,预计其进入产线后将在一定程度上降低对海外光刻设备的依赖,先进制程仍需要EUV光刻设备。

光刻设备的战略价值和技术壁垒极高,是芯片图案转移的核心,和薄膜沉积、刻蚀设备同属于半导体三大前道环节。全球主要供应商是阿斯麦(ASML),市场份额占比高达82.1%,其次是佳能(Canon)和尼康(Nikon)市占率分别为10.2%、7.7%。国内主要光刻设备研发参与者有上海微电子、新凯来、以及长光所。

虽然利用现有DUV光刻机,采用“多重曝光”技术仍可以生产7nm及以下的芯片,但会导致生产成本上升、生产时间延长以及良率降低。因此,长期看实现EUV光刻设备自主还是关键,重点在于如何解决顶级设备对全球供应链依赖的问题。光刻机被称为“工业明珠”,打造靠的是全球顶尖技术的合力。比如,阿斯麦的气体来自美国、光源有日本供应、镜头来自德国,因此,光刻设备的国产化替代考验的不仅是单点技术突破,更是细分产业链的完备和自主可控。

4.3 GPU软件生态:核心挑战在于打破CUDA壁垒

CUDA是英伟达垄断GPU行业的核心护城河,也是GPU自主攻坚最大的壁垒。截止2024年底,CUDA已拥有超过500万开发者,服务于全球85%以上的数据中心,90%的AI框架基于CUDA开发,95%的AI训练任务依赖CUDA工具链。

CUDA全称“统一计算设备架构”,其作用是让图形编程之外的领域也能最大程度利用GPU。CUDA的组成结构主要有三个部分:开发库、运行期环境、驱动。开发库的作用是让开发者可以快速建立起自己的应用,并且开发者也可以在CUDA的技术基础上搭建出定制化的开发库。运行期环境主要提供应用开发接口和运行期组件,基本上涵盖通用GPU开发所需要的所有功能和资源接口。驱动部分即是英伟达显卡的驱动,虽然不同版本系列GPU有不同,但本质上是为英伟达自家的硬件设备建立的抽象层,提供访问接口。

CUDA和英伟达硬件绑定扩张,已经成为事实上的GPU软件行业标准。随着GPU发展迭代,其功能和应用范围也不断扩大。开发者的投入与CUDA深度绑定,协同优化,在多代技术跃迁下构建了一个庞大的、自我循环、自我强化的生态平台。

当前,国内GPU生态和英伟达CUDA差距在于两方面

一是用户适配成本高。由于国内的GPU生态起步晚,且碎片化,基础软件不统一。各家厂商自建生态,形成了互不相通的技术壁垒,导致用户适配成本高,软件迭代时间和成本增加,制约了产业效率和竞争力。

二是缺乏高阶工具。CUDA生态GPU的特点是稳定、高效、易用,而国产GPU常面临硬件“纸面”算力与实际应用输出存在差距的问题,本质上是缺乏成熟的高阶软件栈,效能被软件短板所抵消。

好在国内厂商都意识到软件生态的重要性。目前主要存在两种方案路线。一是兼容CUDA路线,通过软件层转换,降低开发者的迁移门槛。但这种方式存在性能损耗和长期开发风险。二是构建独立生态路线,比如华为的CANN、摩尔线程的MUSA等,目的是打造自主的开发者体系但需要巨大的投入和耐心,核心在于能否吸引开发者长期在其平台上创造价值。

虽然许多国内企业已形成“高性能用进口、安全可控用国产”的双供应链策略,为国产GPU提供了政务、金融、特定行业的应用空间。但通用、高性能领域仍需要自主厂商发力。

CUDA的护城河深厚,但并非不可挑战。中国拥有全球最丰富的AI应用场景,利用庞大的市场优势,通过开放协同的策略,最终有希望走出一条从兼容迁移到逐步自主的GPU生态标准。

在全球供应链动荡的背景下,拥有自主可控的算力已成为国家战略。中国本土AI芯片企业这一战略最核心的承载者,其价值首先在于战略安全,而非短期市场份额。近期中国本土AI芯片实现0到1的突破,并且正加速成长。未来,他们的首要目标并非在全球与英伟达正面交锋,而是先服务于中国本土的国产化替代市场。当然,挑战依然严峻,7纳米及更先进制程的获取、CUDA生态的铜墙铁壁、以及如何在保障性能的同时将集群功耗和成本优化到最佳水平,都需要长期攻坚。

打开网易新闻 查看精彩图片