打开网易新闻 查看精彩图片

2024年,单颗AI加速器的片内数据吞吐量已突破100TB/s。这个数字相当于每秒传输25部4K电影,而三年前这个数字还不到30TB/s。

数据暴涨正在重塑芯片设计的底层逻辑。片上网络(NoC,Network on Chip)——这个连接CPU、GPU、NPU和内存的"数据高速公路系统"——正从幕后配角变成决定芯片成败的关键变量。

 freeway 困境:当数据洪流遇上十字路口

freeway 困境:当数据洪流遇上十字路口

把今天的片上网络想象成一座超级城市的交通系统。不是简单的十字路口,而是多层立交桥、潮汐车道、智能信号灯的组合体。数据是车辆,处理器和内存是目的地。

问题是,车流量在三年里翻了不止三倍,而道路扩建的速度远远跟不上。

「这个领域在快速增长,因为我们有大量数据,」Synopsys接口IP产品管理总监Priyank Shukla说,「这催生了新技术,用于将数据接入和接出加速器并送往内存,正在推动我们领域的创新。」

实时AI分析是压力的主要来源。模型推理需要处理器和内存之间持续、高频的数据交换,任何延迟都会直接转化为算力浪费。传统架构下,数据搬运的能耗已经占到AI芯片总功耗的60%以上。

ChipAgents CEO William Wang列出的难题清单很长:可扩展性、拥塞管理、流量公平性、延迟可预测性,以及在日益异构的IP模块之间实现时序收敛。

这些挑战不是孤立存在的。它们像一团缠绕的线,拉动任何一根都会影响全局。

 拓扑进化:从简单环路到自适应网格

拓扑进化:从简单环路到自适应网格

打开网易新闻 查看精彩图片

早期的NoC设计相对简单。环形总线、交叉开关(crossbar)就能满足需求。一个CPU核心、一个GPU、几组内存控制器,数据流向清晰可预测。

现在的AI芯片完全是另一回事。Arteris产品管理和营销副总裁Andy Nightingale描述了一个典型场景:「当SoC扩展到数百甚至数千个端点时,你不再只是连接模块。你是在严格的功耗、延迟和版图约束下,管理一个活的交通系统。」

布线拥塞、时序收敛、性能表现,这三者与拓扑结构和物理 placement 不可分割。缓存一致性、流量顺序直接影响服务质量(QoS)和最坏情况延迟。异构集成——CPU、GPU、NPU、加速器和芯粒(chiplet)的混合——成倍增加了时钟域、电源域和协议域的复杂度。

AI设计加剧了部分挑战。Nightingale指出:「结构必须吸收突发性的高扇入流量,而不会陷入队头阻塞或病态拥塞。」

这正是现代NoC超越简单交叉开关或环形结构的原因。设计团队开始采用自适应网格拓扑,让数据包根据实时流量状况动态选择路径,而非固定路由。

Baya Systems首席解决方案架构师Kent Orthner提到了一个关键权衡:「如果你增加布线层密度,能获得更好的性能,但物理设计会更困难。」

他的判断是,异构性本身可能是破局点——不是作为问题,而是作为解决方案。

多芯片时代:从片内到片间的跳跃

当单芯片的物理极限逼近,行业转向多芯片系统(multi-die)和芯粒架构。这带来了新的连接需求:芯粒间互连(inter-die fabric)。

片内NoC和片间fabric的设计哲学有本质差异。前者追求极致的带宽密度和纳秒级延迟,后者需要在功耗、成本和物理距离之间寻找平衡。Universal Chiplet Interconnect Express(UCIe)等标准正在成型,但生态成熟度远不及片内互连。

打开网易新闻 查看精彩图片

一个被低估的细节是:多芯片系统的数据流规划必须前置到架构设计早期。等到IP模块确定后再"拼接"互连方案,会导致无法挽回的性能损失。

Nightingale强调:「结构必须被设计为可扩展的系统,而不是在真正的IP完成后才被当作粘合逻辑对待。」

这句话指向一个行业通病。过去,NoC常被视为"基础设施",由后端团队在后期实现。现在,它需要在规格定义阶段就与计算架构、内存层次结构同步设计。

工具链也在进化。Synopsys、Cadence、Siemens EDA都在强化NoC建模和仿真能力,让架构师在RTL编码前就能评估不同拓扑的流量表现。这种"左移"趋势与软件领域的DevOps变革异曲同工。

 谁在为数据搬运买单?

谁在为数据搬运买单?

成本结构正在变化。先进制程的晶体管成本下降放缓,但数据搬运的能耗成本持续上升。在3nm节点,移动1比特数据跨越整个芯片的能耗,可能已经高于在该比特上执行一次简单计算。

这解释了为什么近存计算(near-memory computing)和存内计算(in-memory computing)获得关注。与其把数据搬到处理器,不如把处理逻辑搬到数据旁边。

但架构的彻底重构需要时间。未来5-7年,NoC和互连fabric的优化仍是主流路径。自适应路由、分层拓扑、功耗感知调度——这些技术组合起来,目标是把数据搬运的能耗占比从60%降到40%以下。

一个值得追踪的信号是:头部云厂商的自研芯片团队正在加大NoC架构师的招聘力度。这不是边缘岗位,而是与微架构师、编译器工程师并列的核心角色。

当数据洪流继续膨胀,芯片设计的竞争焦点正在从"算得多快"转向"搬得多聪明"。下一个瓶颈,可能不是晶体管密度,而是架构师想象数据流动的能力。

你的芯片里,数据今天走了多少冤枉路?