Andy Nightingale 每周要接听十几个 AI 芯片团队的电话。这些团队遇到的问题惊人地一致:算力堆上去了,芯片却跑不动。

作为 Arteris 产品管理与营销副总裁,Nightingale 发现,训练(training)和推理(inference)不仅增加了数据量,更把数据移动本身变成了系统的主导瓶颈。计算能力正以超越摩尔定律的速度扩展,但数据移动、拥塞和能效决定了这些算力是否真的可用。

打开网易新闻 查看精彩图片

这不是个别公司的困境。当单颗芯片塞入数百亿晶体管、多颗芯粒(chiplet)拼接成更大系统时,数据如何在内部流动,已经成为架构设计的核心战场。

片上网络正在成为新的分层战场

现代复杂 SoC 和多芯粒实现——尤其是 AI 相关设计——可能包含多个片上网络(NoC,network-on-chip)来管理和优先处理数据移动。这些网络可以是缓存一致性(coherent)或非一致性(non-coherent)的,可以连接缓存和 I/O,也可以只处理系统的某个物理部分。

关键变化在于:这一切需要在设计流程中比过去更早规划,并在整个系统生命周期中持续监控。

Nightingale 建议芯片架构师从四个问题入手:谁需要一致性、为什么需要;哪些代理产生突发流量而非稳定流;延迟边界真正重要的地方在哪里;跨衍生产品或芯粒的预期复用和扩展程度如何。

CPU 集群通常需要一致性 NoC,因为其编程模型依赖于此。NPU 通常采用非一致性设计,因为显式数据移动和本地内存能提供更好的功耗和吞吐量。

ChipAgents CEO William Wang 持相同观点:为需要一致性的共享内存 CPU 集群选择一致性 NoC,为吞吐量比严格一致性更重要的 NPU 和加速器选择非一致性 NoC。

一致性是有代价的

NoC 有多种形态:完全缓存一致性、末级缓存一致性、I/O 一致性(也称单向一致性),以及非一致性。

Baya Systems 首席解决方案架构师 Kent Orthner 指出,一致性网络通常比非一致性网络更昂贵、更耗电。常见做法是将拥有缓存的强大 CPU 连接在一致性网络中,同时尽量缩小一致性部分的范围——通常只保留在内存和 CPU 之间,可能还包括 AI 加速器。系统其余部分使用更简单的读写协议,这种协议不关心谁最后访问了数据或谁对数据负责,只是直接访问内存或端点。

这种分层策略的本质是:用复杂度换取性能,但只在真正需要的地方支付这笔成本。

正反方:一致性边界该划在哪里

关于 AI SoC 中的 NoC 设计,行业存在两种明确立场。

正方观点:严格分区,能省则省。Orthner 代表的这一派认为,一致性是昂贵的"奢侈品",应当被限制在最小必要范围内。CPU 之间的缓存同步不可避免,但 AI 加速器、I/O 外设、甚至部分内存子系统都应该被隔离在非一致性域中。这种设计的优势是功耗可控、面积更小、验证更简单。

反方观点:一致性范围正在被迫扩张。Nightingale 从客户现场带回的观察显示,AI 工作负载的复杂性正在模糊传统边界。某些推理场景下,CPU 与 NPU 之间的数据共享频率远超预期;多芯粒架构中,跨芯粒的一致性协议虽然沉重,却有时是避免软件复杂性的唯一选择。

两方的分歧不在于技术事实,而在于权衡语境。Orthner 描述的是理想状态下的架构原则;Nightingale 反映的是工程团队在交付压力下面对的真实约束。

判断:分层仍是正确答案,但分层方式在进化

这场辩论的真正价值在于揭示了一个行业共识的松动。

传统上,一致性 vs 非一致性是一个静态的架构决策,在早期确定后很少更改。但现在,数据量的膨胀和工作负载的多样化正在推动更动态的方案:同一颗芯片内可能同时存在多种一致性级别的 NoC,且边界可以通过软件或固件在一定范围内调整。

Arteris 和 Baya Systems 的产品演进方向印证了这一点——工具链需要支持架构师在设计早期探索不同分层方案,而非锁定单一配置。ChipAgents 等新兴公司则试图用自动化方法降低这种探索的成本。

对于 25-40 岁的芯片架构师和系统工程师,这意味着技能栈的扩展:不仅要理解缓存一致性协议的细节,还要能够在系统级权衡中量化不同选择的代价。数据移动不再是后端实现的"管道问题",而是与算力规划同等重要的前端决策。

当一颗 AI 芯片的算力利用率从 30% 提升到 70%,差异往往不在于用了更先进的制程,而在于数据是否以正确的形态、在正确的时间、到达了正确的计算单元。NoC 的分层设计,正是这个"正确"的物理载体。