打开网易新闻 查看精彩图片

1978年,英特尔给8086处理器配了个"跟班"——8087浮点协处理器。当时没人想到,这个为了解决数学运算太慢而诞生的配角设定,会在半个世纪后成为AI芯片战争的核心剧本。

协处理器不是新鲜事,但AI让它成了主角。

CPU当了50年主角,但从来没人指望它单打独斗。个人电脑早期就承认一个事实:有些活儿需要更专精的帮手。音频和手机普及催生了DSP(数字信号处理器),CAD和游戏需求养大了GPU(图形处理器)。Quadric首席营销官Steve Roddy总结了三十年规律:「功耗和性能催生新处理器品类,但完整的可编程性决定谁能活下来。」

CPU能扛住的活儿,没人愿意多塞一颗芯片。只有CPU效率崩了,架构师才会动手造新物种。

AI算力需求正在撕裂旧架构

AI算力需求正在撕裂旧架构

AI的进化速度已经超过了硬件设计周期。ChipAgents首席执行官William Wang指出关键转向:「AI系统的工作负载正从短促的核函数式推理任务,转向长周期运行的智能体(agentic)任务——涉及推理循环、工具调用、内存访问,以及跨多个软件组件的交互。」

这个变化彻底改写了游戏规则。

过去拼的是谁算得快,现在拼的是谁能把数据搬动降到最低。协处理器的核心逻辑从未改变:让数据少跑路。但AI时代给这个老原则加了新维度——不仅要快,还要够灵活,因为明天的工作负载和今天可能完全不同。

芯片架构师现在面临一个悖论:为今天的负载最大化效率,同时为明天保留足够弹性。这就像给2026年的AI设计芯片,却要赌对2028年的模型结构。

没有一颗芯片能通吃全场

没有一颗芯片能通吃全场

CPU、GPU、DSP、NPU(神经网络处理器)、TPU(张量处理器)……名单还在加长。每颗芯片都有自己的舒适区,但AI推理和训练的需求横跨所有禁区。

纸上谈兵很简单:CPU管调度,GPU管并行,NPU管矩阵运算,专用加速器管特定算子。实际落地完全是另一回事——不同处理器之间的数据搬运、同步开销、内存一致性,能把理论性能吃掉一半。

Roddy的观点值得细品: specialization(专用化)是效率的解药,也是灵活性的毒药。一颗为Transformer架构优化的芯片,遇到下一代架构可能直接报废。但不做专用化,功耗和延迟又扛不住。

协处理器架构的复兴,本质是这个矛盾的阶段性妥协——用多颗芯片分担风险,而非押注单一架构。

数据搬运是隐形成本杀手

数据搬运是隐形成本杀手

行业有个老笑话:性能瓶颈不在计算,在搬数据。AI把这个笑话变成了噩梦。

大模型推理时,参数从内存搬到计算单元的过程,能耗可能比实际运算高一个数量级。这也是为什么苹果把内存焊死在M系列芯片旁边,英伟达疯狂堆HBM(高带宽内存)容量——物理距离就是功耗。

协处理器设计的核心指标正在重构:不再是峰值算力(TOPS),而是有效算力——扣除数据搬运开销后的真实产出。Wang提到的「长周期智能体工作负载」尤其敏感,这类任务需要频繁访问上下文记忆,内存带宽和延迟直接决定响应速度。

一颗协处理器再强,如果和主存之间隔着PCIe总线,性能就会腰斩。这也是为什么新一代AI芯片把「近存计算」「存内计算」挂在嘴边——不是概念炒作,是物理极限逼的。

架构师的赌注:押注未来,但别押太死

芯片设计周期18-24个月,AI模型迭代周期3-6个月。这个错配让每一次架构决策都像赌博。

Roddy的观察提供了避险思路:可编程性是安全垫。完全固化的专用电路效率最高,但模型一变就成废铁;完全可编程的CPU效率最低,但活得最久。成功的协处理器往往卡在中间地带——硬件固定核心算子,软件定义数据流和控制逻辑。

这种「半硬化」策略在GPU上验证过。CUDA生态的护城河不是硬件,是软件层对算法演进的适配能力。新一代AI协处理器正在复制这个路径,但挑战更大——AI工作负载的多样性远超图形渲染。

推理、训练、微调、检索增强生成(RAG)、智能体循环……每种场景对计算、内存、互联的需求图谱都不同。单一协处理器不可能全优,多芯协同又带来调度复杂度。

封装技术成了新战场

封装技术成了新战场

当单颗芯片的物理极限逼近,工程师开始横向扩展——把多颗芯片封在一起。

Chiplet(芯粒)架构让不同工艺节点的芯片混搭成为可能:计算单元用3nm,I/O单元用7nm,内存堆叠用成熟工艺。协处理器不再是一颗独立芯片,而是封装内的功能模块。

这个变化模糊了「主处理器」和「协处理器」的边界。苹果M4的神经网络引擎、英特尔的NPU tile、AMD的XDNA架构——它们算协处理器还是CPU的一部分?答案取决于你看的是软件栈还是硅片布局。

封装内的互联带宽比板级互联高两个数量级,延迟低一个数量级。这让「协处理」的协同成本大幅下降,也为更激进的异构设计打开空间。代价是热管理复杂度指数级上升——十几颗芯片挤在一个封装里,散热设计决定能否持续满载。

软件生态的隐形战争

硬件架构的碎片化,把压力传导到了软件层。

开发者不想为每颗协处理器写底层代码。CUDA的成功在于抽象了GPU的复杂性,PyTorch和TensorFlow的成功在于进一步抽象了CUDA。但AI芯片的新玩家太多,每家都有自己的指令集和内存模型,软件适配成了最大阻力。

Roddy强调的程序可移植性,在这个语境下是生死线。一颗硬件性能强30%的协处理器,如果需要重写整个软件栈,可能打不过性能弱但即插即用的竞品。这也是英伟达护城河最深的部分——不是A100/H100的算力,是十几年积累的软件生态。

新入局者的破局点在哪?一种路径是极致专用,在特定场景做到10倍效率优势,换取垂直领域的生态位;另一种是做「透明协处理器」,对上层软件完全隐形,只暴露标准接口。两条路都不容易。

功耗墙倒逼架构创新

功耗墙倒逼架构创新

数据中心AI训练的功耗已经以兆瓦计,边缘推理的电池续航决定产品形态。两个极端都在压缩架构师的自由度。

云端追求算力密度,液冷从可选变成必选。协处理器设计必须考虑散热预算——一颗200W的芯片和四颗50W的芯片,在总功耗相同的情况下,后者可能因散热面积更大而持续输出更高。这也是Chiplet架构在数据中心的隐性优势。

边缘端则反过来。手机NPU、耳机降噪芯片、车载视觉处理器——这些协处理器在毫瓦级预算下挣扎,每一皮焦(picojoule)的运算能耗都要斤斤计较。专用化的动力在这里最强,因为灵活性可以用云端卸载来补偿。

两个场景的分化,意味着协处理器架构不会收敛到单一答案。云端要可扩展性,边缘要极致效率,中间地带还要兼顾两者。

内存墙比算力墙更急迫

Transformer架构的内存需求随序列长度平方增长,长上下文(long context)成了新战场。100万token的上下文窗口,参数激活值可能占满几百GB内存——这还没算模型权重。

协处理器设计被迫回答一个问题:内存放哪?

HBM堆叠在计算芯片旁边是主流方案,但成本和容量受限。CXL(Compute Express Link)内存扩展提供了池化能力,但延迟代价显著。更激进的方案在探索存内计算(compute-in-memory),把计算直接放进存储单元,消除搬运开销。

这些技术成熟度不一,但方向一致:让数据离计算更近。协处理器的价值评估标准,也从「算得多快」转向「搬得多省」。

Agentic AI重塑负载特征

Agentic AI重塑负载特征

Wang提到的「智能体工作负载」值得展开。传统AI推理是单次前向传播:输入进,输出出。智能体(Agent)则是循环结构:推理→决策→调用工具→获取反馈→再推理。

这个循环可能持续数十轮,涉及多模态输入、外部API调用、长期记忆检索。负载特征从「计算密集」转向「交互密集」,延迟敏感点从单次吞吐量变成回合响应速度。

对协处理器架构的影响深远。峰值算力指标失效,需要关注的是:上下文切换开销、工具调用延迟、内存一致性保证。这些传统CPU擅长的领域,反而可能成为瓶颈。

一种可能的演进方向是「异构智能体芯片」:专用核处理推理,通用核处理调度和I/O,内存子系统优化随机访问模式。这不是回归CPU中心架构,而是协处理器之间的再分工。

互联架构决定扩展上限

单颗芯片的算力有物理极限,多芯片扩展的瓶颈在互联。NVLink、Infinity Fabric、CXL、UCIe……每个名字背后都是生态博弈。

协处理器要发挥作用,必须和主处理器、和其他协处理器、和内存子系统高效对话。互联带宽和拓扑结构,决定了扩展是线性还是次线性。

英伟达NVLink的封闭性是其护城河,也是行业痛点。UCIe(Universal Chiplet Interconnect Express)试图建立开放标准,但生态成熟度差距明显。ChipAgents这类新玩家的机会,可能在于更灵活的互联方案——不是挑战英伟达的峰值性能,是在特定拓扑下提供更好的性价比。

互联的标准化程度,也可能决定协处理器市场的集中度。高度封闭的生态养得起专用协处理器,开放生态则催生更多细分玩家。

验证成本吞噬创新周期

验证成本吞噬创新周期

一个被低估的约束:芯片验证的时间和经济成本。

先进制程的设计规则复杂度爆炸,仿真验证需要海量算力。一颗AI协处理器从架构冻结到流片,验证可能占去一半时间。这意味着架构师必须提前18个月预判工作负载,而AI模型的演进周期只有3-6个月。

缓解方案包括:可重构架构(FPGA/自适应计算)、软件定义的硬件调度、以及——回到Roddy的观点——保留足够的可编程性作为安全垫。但这些方案都有代价:面积、功耗、峰值效率。

协处理器的创新节奏,正在被验证经济学重塑。小步快跑、快速迭代是软件业的常识,在芯片业却是结构性难题。

供应链安全重构设计逻辑

地缘政治让协处理器设计多了层考量:谁能造?

先进制程的产能集中度过高,任何单一来源风险都可能触发架构调整。Chiplet的模块化在此显现战略价值——可以把不同工艺节点、不同代工厂的芯片封装在一起,分散供应风险。

这也解释了为什么RISC-V在AI协处理器领域升温。开放指令集降低了IP授权的卡脖子风险,虽然生态成熟度仍有差距。对特定国家/地区的厂商,这是架构选择的非技术因素。

供应链约束可能催生「够好即可」的设计哲学——不追求最先进制程,用架构创新弥补工艺差距。这在边缘端已经显现,云端高端训练芯片则更难妥协。

能效比成为终极货币

能效比成为终极货币

所有技术争论的落脚点:每焦耳能干多少活?

数据中心层面,电费可能超过硬件折旧。模型训练一次GPT-4级别的任务,能耗相当于数百户家庭年用电量。协处理器的能效优势,从成本优势变成生存必需。

边缘层面,电池容量是物理硬约束。AR眼镜要全天候佩戴,算力预算可能只有几百毫瓦——这比十年前的手机还苛刻。专用协处理器的价值在这里最清晰:没有通用处理器能在这种预算下跑视觉SLAM(同步定位与地图构建)。

能效比的竞争,正在从制程红利转向架构红利。3nm对5nm的提升有限,但存内计算对冯诺依曼架构的颠覆可能是倍数级。这也是为什么新架构探索在AI芯片领域如此活跃——旧地图到不了新大陆。

开发者体验的最后一公里

硬件再优雅,开发者用不起来就是废铁。

AI框架的抽象层在努力掩盖异构复杂性,但泄漏(leakage)无处不在:内存布局、数据类型、同步原语、性能剖析……这些细节在单一代码库时代可以忽略,在CPU+GPU+NPU+DSA(领域专用加速器)的混合架构下成了日常。

协处理器的成功标准,最终是开发者能否无感使用。CUDA花了十五年建立这个标准,新玩家需要找到捷径——或者更激进的抽象,或者更透明的集成。

一种可能的路径是「编译器即产品」:用AI优化AI,让编译器自动完成算子选择、内存调度、并行策略。这条路的尽头,硬件差异化可能被软件层抹平,只剩下能效和成本的硬比拼。

从协处理器到「协同处理器」

从协处理器到「协同处理器」

术语的微妙变化反映认知演进。

Co-processor(协处理器)暗示主次关系,CPU是主,其他是从。但AI工作负载的复杂性,让这种层级结构松动。GPU在训练任务中主导,NPU在推理任务中主导,CPU退化为调度员——谁主谁协,取决于场景。

更准确的描述可能是「协同处理器」(collaborative processors):多颗芯片对等协作,动态分配角色。这要求硬件层面的灵活互联,和软件层面的动态调度。

架构的终极形态,可能是「软件定义硬件」的极致——同一硅片根据负载实时重组计算、内存、互联资源。FPGA和自适应计算朝这个方向探索多年,AI的需求可能 finally 让这类架构跨越临界点。

50年前的伏笔

回到1978年的8087。它解决的浮点运算瓶颈,和今天AI芯片解决的矩阵运算瓶颈,本质同一类问题:通用架构遇到特定负载,效率崩溃,于是造专用帮手。

不同在于节奏。8087的生命周期以十年计,今天的AI协处理器可能三年就面临架构过时。这压缩了生态建设窗口,也放大了可编程性的价值。

Roddy和Wang的观点形成有趣对照:前者强调历史规律的延续性,后者指出负载特征的质变。两者都成立,也共同指向一个结论——协处理器架构的黄金时代刚开始,但赢家通吃的格局远未形成。

芯片架构的进化,从来不只是技术问题。它是关于未来的赌注,关于生态的博弈,关于在确定性和灵活性之间找到动态平衡。8086和8087的搭档关系,在AI时代被复制、放大、复杂化,但核心逻辑没变:没有一颗芯片能通吃全场,协作是效率的终极来源。

当模型参数冲向万亿,当上下文窗口突破百万token,当智能体开始自主调用工具链——这些负载会催生什么样的新处理器?现有玩家能否适应,还是会有新物种崛起?