芯片架构师正在重新设计数据高速公路|cpu|内存|子系统|数据量|新模型|高速公路

Andy Nightingale 每周要接听十几个 AI 芯片团队的电话。这些团队遇到的问题惊人地一致：算力堆上去了，芯片却跑不动。

作为 Arteris 产品管理与营销副总裁，Nightingale 发现，训练（training）和推理（inference）不仅增加了数据量，更把数据移动本身变成了系统的主导瓶颈。计算能力正以超越摩尔定律的速度扩展，但数据移动、拥塞和能效决定了这些算力是否真的可用。

这不是个别公司的困境。当单颗芯片塞入数百亿晶体管、多颗芯粒（chiplet）拼接成更大系统时，数据如何在内部流动，已经成为架构设计的核心战场。

片上网络正在成为新的分层战场

现代复杂 SoC 和多芯粒实现——尤其是 AI 相关设计——可能包含多个片上网络（NoC，network-on-chip）来管理和优先处理数据移动。这些网络可以是缓存一致性（coherent）或非一致性（non-coherent）的，可以连接缓存和 I/O，也可以只处理系统的某个物理部分。

关键变化在于：这一切需要在设计流程中比过去更早规划，并在整个系统生命周期中持续监控。

Nightingale 建议芯片架构师从四个问题入手：谁需要一致性、为什么需要；哪些代理产生突发流量而非稳定流；延迟边界真正重要的地方在哪里；跨衍生产品或芯粒的预期复用和扩展程度如何。

CPU 集群通常需要一致性 NoC，因为其编程模型依赖于此。NPU 通常采用非一致性设计，因为显式数据移动和本地内存能提供更好的功耗和吞吐量。

ChipAgents CEO William Wang 持相同观点：为需要一致性的共享内存 CPU 集群选择一致性 NoC，为吞吐量比严格一致性更重要的 NPU 和加速器选择非一致性 NoC。

一致性是有代价的

NoC 有多种形态：完全缓存一致性、末级缓存一致性、I/O 一致性（也称单向一致性），以及非一致性。

Baya Systems 首席解决方案架构师 Kent Orthner 指出，一致性网络通常比非一致性网络更昂贵、更耗电。常见做法是将拥有缓存的强大 CPU 连接在一致性网络中，同时尽量缩小一致性部分的范围——通常只保留在内存和 CPU 之间，可能还包括 AI 加速器。系统其余部分使用更简单的读写协议，这种协议不关心谁最后访问了数据或谁对数据负责，只是直接访问内存或端点。

这种分层策略的本质是：用复杂度换取性能，但只在真正需要的地方支付这笔成本。

正反方：一致性边界该划在哪里

关于 AI SoC 中的 NoC 设计，行业存在两种明确立场。

正方观点：严格分区，能省则省。Orthner 代表的这一派认为，一致性是昂贵的"奢侈品"，应当被限制在最小必要范围内。CPU 之间的缓存同步不可避免，但 AI 加速器、I/O 外设、甚至部分内存子系统都应该被隔离在非一致性域中。这种设计的优势是功耗可控、面积更小、验证更简单。

反方观点：一致性范围正在被迫扩张。Nightingale 从客户现场带回的观察显示，AI 工作负载的复杂性正在模糊传统边界。某些推理场景下，CPU 与 NPU 之间的数据共享频率远超预期；多芯粒架构中，跨芯粒的一致性协议虽然沉重，却有时是避免软件复杂性的唯一选择。

两方的分歧不在于技术事实，而在于权衡语境。Orthner 描述的是理想状态下的架构原则；Nightingale 反映的是工程团队在交付压力下面对的真实约束。

判断：分层仍是正确答案，但分层方式在进化

这场辩论的真正价值在于揭示了一个行业共识的松动。

传统上，一致性 vs 非一致性是一个静态的架构决策，在早期确定后很少更改。但现在，数据量的膨胀和工作负载的多样化正在推动更动态的方案：同一颗芯片内可能同时存在多种一致性级别的 NoC，且边界可以通过软件或固件在一定范围内调整。

Arteris 和 Baya Systems 的产品演进方向印证了这一点——工具链需要支持架构师在设计早期探索不同分层方案，而非锁定单一配置。ChipAgents 等新兴公司则试图用自动化方法降低这种探索的成本。

对于 25-40 岁的芯片架构师和系统工程师，这意味着技能栈的扩展：不仅要理解缓存一致性协议的细节，还要能够在系统级权衡中量化不同选择的代价。数据移动不再是后端实现的"管道问题"，而是与算力规划同等重要的前端决策。

当一颗 AI 芯片的算力利用率从 30% 提升到 70%，差异往往不在于用了更先进的制程，而在于数据是否以正确的形态、在正确的时间、到达了正确的计算单元。NoC 的分层设计，正是这个"正确"的物理载体。