(本文编译自Electronic Design)
英伟达的爆发式发展及对其图形处理器(GPU)的海量需求,推动全球AI处理器领域迎来发展热潮。但专注于研发专用AI芯片的初创公司浪潮,已然触顶,或已距顶峰咫尺之遥。
2016年以来,全球AI处理器初创企业的数量已翻倍不止,截至2025年底,该领域独立运营的企业数量激增至146家,这一数字已处于难以为继的水平。迄今,投资者受AI处理器市场的前景吸引,已向这些企业投入高达280亿美元的巨额资金。据估算,2026年全球AI处理器市场规模将突破4940亿美元,硬件出货量的增长主要由云端及本地AI推理,以及从可穿戴设备到个人电脑的边缘端部署所驱动,市场营收的增长则主要依托AI训练场景及超大规模数据中心客户的需求。
尽管英伟达的技术背后,有着深厚、完善且几近难以撼动的软件生态体系,以及一套完整的数据中心硬件基础设施作为支撑,但这一切似乎并未被投资者放在眼里。只要宣称能研发出速度更快、性能更优、成本更低的AI处理器,几乎都会获得投资者的青睐与资金支持。
不出所料,绝大多数初创企业的研发重心均聚焦于数据中心或边缘端的AI推理领域。AI训练领域的资金投入门槛依旧极高,多数初创企业已选择退守,将这一市场拱手让给英伟达。
分析机构Jon Peddie Research表示,未来一到两年,独立AI处理器供应商的数量将减少40%,实际情况甚至可能比这更糟。
然而,成功的窗口期正逐步向绝大多数的这些初创企业关闭。行业创业高峰出现在2018年,彼时75%的相关初创企业已成立。值得关注的是,初创企业数量的增长浪潮早于英伟达业务爆发式增长便已开启,这一现象也曾让科技行业为之震惊。
人们或许会认为,是英伟达的成功引来了一众入局者的蜂拥而至,但事实上,多达58%的初创企业在英伟达崛起前就已启动运营。2022年以来,该领域年均发生7起收购案;2020年至今,已有17家相关初创企业完成首次公开募股。
人工智能芯片初创企业的复杂格局
从基础层面来看,人工智能处理器是一款经过特殊优化的芯片,它通过完成海量张量运算,同时最大限度减少数据移动,实现神经网络工作负载的高速、高效运行。这类处理器的产品形态涵盖GPU、神经网络处理器(NPU)、存算一体芯片(CIM/PIM)、神经形态处理器,以及矩阵/张量引擎等。
CPU和FPGA虽也被用于运行人工智能工作负载,但由于二者具备通用计算属性,无法依据功能进行细分,因此通常被排除在规模达850亿美元的人工智能芯片市场之外,进行单独评估。不过,搭载向量扩展或单指令多数据引擎的CPU(目前市面上的CPU基本均具备该特性),同样归属于人工智能处理器的范畴。CPU、SoC与ASIC之间的范畴重叠,也让整个市场格局显得错综复杂(如图1所示)。
图1:用于人工智能训练和推理的CPU、SoC及ASIC之间复杂的范畴重叠问题。
从基础架构来看,人工智能处理器由多个核心组件构成(如图2所示):
计算单元:大位宽单指令多数据/单指令多线程核心(GPU架构)、张量/矩阵引擎、NPU向量单元、激活函数单元。
存储层级:靠近计算单元、容量小且速度快的SRAM;位于处理器外部或同封装内、容量更大的HBM/DDR;高速缓存/便签式存储器;预取器/DMA(CIM大致归属于这一范畴)。
互连单元:片上网络(NOC)与片外互连链路,包括但不限于PCIe、CXL、英伟达NVLink和以太网。
控制单元:用于核心程序/集合通信的指令处理器、调度器及微码。
图2:典型人工智能芯片的核心组件,包括计算、存储与互连模块。
人工智能处理器的应用版图覆盖云服务、数据中心芯片、嵌入式IP及神经形态硬件领域。创业者与工程师们着力弥补CPU和GPU的技术短板,包括优化内存管理、实现小批量任务的高利用率、在严苛的功耗预算下达成时延目标,以及保障规模化部署下的稳定吞吐性能。
这些企业主要从两大维度布局产品研发:一是工作负载类型,涵盖训练、推理及传感器级信号处理;二是部署层级,从超大规模数据中心,到电池供电设备与可穿戴设备均有覆盖。
绝大多数技术研发工作聚焦于内存与执行控制领域。CIM和模拟计算技术通过在存储阵列内完成运算、将部分和数据就近存储的方式减少数据传输,这也催生出数据流架构设计思路。晶圆级芯片将激活值存储在本地SRAM中,并为长序列任务实现权重的流式传输。
可重构架构可在编译阶段调整数据流与分块策略,实现多层网络的利用率优化。训练芯片侧重提升互连带宽与集合通信能力,而推理芯片则将重点放在单批次任务时延优化、Transformer模型的键值缓存技术、边缘端功耗效率上,同时追求云独立部署能力以降低时延,这一点在智能体机器人应用中尤为关键。
人工智能处理器的市场落地,取决于企业的商业化策略与生态体系支撑。云服务提供商正将加速芯片集成至托管服务与模型推理框架中;IP供应商则与手机、汽车及工业领域的系统级芯片研发团队展开合作,提供配套工具链、模型方案及集成密度演进路线图。
此外,边缘计算领域的专精企业会推出专用软件开发工具包,对模型进行压缩、量化至8位整数甚至更低精度,将算子映射至稀疏计算单元或模拟计算单元,同时保障模型精度达标。神经形态计算领域的研发团队则针对脉冲神经网络推出专属编译器,重点优化事件流处理的能效与时延表现。在实际应用中,编译器、核心程序集和可观测性工具的优化升级,其价值往往超过峰值每秒万亿次运算指标。
市场竞争的核心维度随部署层级不同而有所差异(见图3)。训练芯片的竞争聚焦于单模型训练成本,需综合考量网络、存储及编译器的各项约束条件;推理芯片则以单位token/单帧处理成本为核心目标,同时满足时延限制,缓存管理与精度量化是实现这一目标的关键手段;边缘设备的竞争围绕单次推理功耗(毫瓦级)及工具链的可移植性展开;IP供应商的竞争则集中在流片周期、功耗-性能-面积综合指标及验证技术支持能力上。科研项目则需要在市场化落地速度与技术实验探索之间寻求平衡,这类实验或会改变存储、计算与通信三者间的原有取舍逻辑。
图3:人工智能芯片企业的市场细分分布。
在整个研发与落地过程中,各研发团队会根据具体需求定制芯片设计,适配的需求维度包括注意力机制深度、参数量、激活值规模、稀疏性及精度策略等。当企业实现芯片、编译器与部署工具的协同开发时,不仅能降低集成成本,还能加快从模型研发到高吞吐率落地的转化效率。
此时客户拥有多种选择:在云端进行算力扩容、通过晶圆级系统实现算力升级、将NPU集成至SoC中,或是利用模拟芯片和神经形态芯片让计算单元更贴近传感器端。这笔280亿美元的投资,正流向上述海量的研发与落地工作;而这些技术的布局与成果,也让一众初创企业成为极具吸引力的收购标的(见图4)。
图4:人工智能芯片初创企业按处理器类型的分布情况。
人工智能芯片初创企业的爆发式增长将落幕
但这场人工智能芯片初创企业的“寒武纪大爆发”,或许已行至终点。2025年末,市场首次出现投资者对超大规模企业、各国政府及私营机构的巨额算力设备投入感到担忧的迹象,这也在由人工智能热潮主导的股市中引发了连锁反应(见图5)。媒体上充斥着关于该市场存在泡沫的讨论,以及对泡沫破裂时间的预判。
图5:全球人工智能处理器供应商数量分布。
人工智能芯片供应商领域的泡沫破裂已在暗流涌动,毕竟没有哪个行业能支撑146家供应商共存。
市场上已出现多起企业收购与倒闭案例(截至2025年底已有21起),后续还将有更多案例出现。但风险投资机构仍在赌概率,大概率是六家融资额超10亿美元的企业将存活下来,其余百余家初创企业则需寻找37家处于收购窗口期的上市公司作为归宿。Jon Peddie Research咨询公司的预测显示,未来一到两年,独立人工智能芯片供应商的数量将减少40%,而实际情况可能会更糟。
尽管多数初创企业终将被收购或走向倒闭,但被收购的企业会带来免费的IP,而这笔成本早已由热情乐观的风险投资机构买单。280亿美元足以支撑大量的研发工作,尤其是这些初创企业的平均员工数还不足10人。反观英伟达,目前员工规模约为3.6万人,双方的竞争本就并非一场公平的较量。
这些收购案的背后,难免有人为错失的发展可能感到惋惜。但如果创业的初衷只是“造出更优秀的处理器,客户便会纷至沓来”,那么这份惋惜其实并无必要。
英伟达的行业主导地位,不仅依托其人工智能GPU的性能优势和完善的软件生态,更在于其始终聚焦于打造全套数据中心硬件基础设施,这一布局让它始终保持着行业领先。
热门跟贴