导语:当摩尔定律的空间红利逐渐见顶,华为提出以时间为尺度的τ缩放,为后摩尔时代芯片进步寻找新的坐标。

5月25日,华为海思半导体掌门人何庭波的“韬定律”在朋友圈刷屏了。

笔者查了查资料,在ChinaXiv的论文已经可以下载了,这里第一时间放出下载链接,并进行一下解读:

论文在ChinaXiv的预印本链接:

https://chinaxiv.org/abs/202605.00224

打开网易新闻 查看精彩图片

这篇题为《A Time Scaling Theory for Multi-Layer Electronic Systems》的论文,由华为半导体业务负责人Tingbo He(何庭波)署名。论文一开篇就指出,过去六十年,摩尔定律的几何缩放一直推动半导体产业前进,但如今这套产业逻辑正在发生变化。论文原文写道:“For six decades, Moore's geometric scaling drove progress in semiconductors.” 但紧接着,作者也强调,“returns from pure dimensional shrinking have flattened”,也就是单纯依靠尺寸缩小带来的收益已经趋于平缓。

这篇论文提出的核心概念是τ scaling,也就是“时间缩放”。τ在这里可以简单理解为一个系统完成关键动作所需要的“时间常数”。它可以是一个晶体管完成一次开关的时间,也可以是一条芯片内部线路传输信号的时间,还可以是AI数据中心里一批芯片协同完成一次任务的等待时间。论文的核心观点是,未来电子系统的优化目标,不应只盯着晶体管面积,而要把“时间”作为贯穿晶体管、电路、芯片、系统乃至数据中心的统一指标。论文原文说:“time itself should be adopted as the primary metric.”

过去几十年,半导体行业最重要的关键词是摩尔定律。芯片里的晶体管越做越小,同样面积里能塞进更多晶体管,芯片性能就越来越强,成本也越来越低。这就是为什么过去手机每隔几年明显变快,电脑越来越轻薄,服务器算力越来越强。

但论文认为,这套靠“缩小尺寸”推动进步的产业逻辑,已经遇到了明显瓶颈。尤其到了7nm之后,晶体管继续缩小仍然可能,但收益不再像过去那样稳定释放。论文提到,先进制程面临光刻成本、EUV折旧、设计复杂度、互连寄生效应等多重压力,最先进节点的单位晶体管成本已经不再持续下降,甚至可能反向上升。换句话说,过去行业相信“越先进越便宜、越小越划算”,但今天这个等式已经不再天然成立。

这也是这篇论文提出新问题的背景:如果不能永远靠晶体管缩小,芯片行业下一步应该缩放什么?

作者给出的答案是:缩放时间。

这听起来抽象,但换成城市交通的例子就很好理解。过去一个城市为了提高通行效率,最直接的方法是把马路修宽,车道越多,车流量越大。但城市空间有限,路不可能无限变宽。于是下一阶段的优化,就要靠立交桥、地铁、智能红绿灯、快速路、减少换乘等待、减少绕行距离。芯片产业也是类似逻辑。过去靠晶体管变小,相当于“把路修宽”;未来则要靠系统设计、封装、互连、存储、软件协同,把数据的“通勤时间”压下来。

摩尔定律也是压缩时间

论文中一个重要判断是:摩尔定律表面上是空间缩放,本质上一直在压缩时间。论文原文写道:“Spatial scaling served merely as the instrument for compressing time.” 也就是说,过去的“空间缩小”只是手段,真正让用户感受到性能提升的,是系统响应时间的缩短。消费者并不关心芯片是几纳米,真正关心的是手机打开应用快不快、AI回答快不快、游戏卡不卡、服务器训练模型效率高不高。

这就是τ缩放的基本逻辑:从晶体管、电路、芯片到系统,每一层都找到最耗时间的地方,然后尽可能把它压缩。

论文把τ拆成多个层级:晶体管层、电路层、芯片层、系统层。晶体管层看的是开关延迟;电路层看的是信号沿着线路传播的RC延迟;芯片层看的是计算和访问存储的延迟;系统层看的是芯片之间、服务器之间、机柜之间完成通信和同步的时间。论文原文提到,τ可以覆盖“picoseconds to seconds”,也就是从皮秒级晶体管开关到秒级系统响应。作者还强调,“Frequency, latency, bandwidth, and throughput are all governed by τ at their respective layers.” 频率、延迟、带宽和吞吐量,本质上都可以放在τ这个统一框架下讨论。

啥是逻辑折叠?

这篇论文第一个重点案例,是手机SoC里的LogicFolding,可以翻译成“逻辑折叠”。

普通人可以把传统芯片想象成一座巨大的单层工厂。所有生产线、仓库、办公室都铺在一个平面里。一个零件要从A车间送到B车间,可能要横穿很长距离。距离越长,时间越久,能耗也越高。传统芯片也是如此,晶体管虽然很多,但信号要沿着金属线在平面里传输。线路越长,电阻和电容带来的延迟越明显,芯片频率和功耗都会受限制。

LogicFolding的思路,是把这座单层工厂改造成多层楼。原来需要在平面里绕很远的路径,现在可以通过垂直连接上下穿行。论文对LogicFolding的定义是:“LogicFolding is a design methodology that partitions digital, analog, and memory circuits across vertically stacked active tiers.” 简单说,就是把数字电路、模拟电路、存储电路分布到垂直堆叠的有源层中,再通过高密度混合键合等方式连接起来。

这样一来,部分关键路径的线长缩短,信号传输延迟下降,时钟偏斜减少,芯片在不换制程节点的情况下,也能获得更高频率和更好能效。论文原文解释:“Signal wires become substantially shorter, parasitic RC decreases sharply, clock skew tightens, and the chip operates at a higher clock frequency at the same device node.” 这句话其实就是LogicFolding的关键:不是晶体管本身一定变得更小,而是信号走的路更短了,等待时间更少了。

麒麟2026的最新进展

论文称,在Kirin 2026上,LogicFolding实现了一个比较显著的结果:晶体管密度从155 MTr/mm²提升到238 MTr/mm²,SoC性能核能效提升41%,最高频率提升接近13%。论文原文写道:“The results, measured on Kirin 2026, are concrete.” 随后列出了这些关键数据。这组数据的关键意义在于,它不是通过简单换更先进光刻节点获得的,而是通过三维结构重组、关键路径缩短和系统级设计优化实现的。

这对半导体行业的启发很直接:当制程继续缩小的收益变贵、变难、变慢时,先进封装和三维集成会变得越来越重要。

过去行业讨论芯片先进性,最常问的是“几纳米”。但如果LogicFolding这样的路径成立,未来一个芯片是否先进,不能只看制程节点,还要看它如何组织晶体管、如何缩短互连、如何把计算和存储放得更近、如何在封装层面释放性能。换句话说,先进芯片竞争正在从“二维平面上的尺寸竞赛”,变成“三维空间里的系统工程竞赛”。

论文还特别提到SRAM。SRAM是芯片里非常关键的存储单元,CPU缓存、AI芯片片上存储都离不开它。SRAM的速度和能耗,很大程度上受位线、字线长度影响。线越长,访问越慢、能耗越高。如果通过LogicFolding缩短这些关键线路,就能提高SRAM频率,降低每比特访问能耗。论文称,LogicFolding让SRAM工作频率提升超过40%;在一个代表性处理核心上,双层折叠架构让时钟缓冲器数量减少超过50%,时钟偏斜降低25%,线长约减少30%。

这说明,LogicFolding不只是“把芯片叠起来”这么简单。它真正要解决的是芯片内部越来越严重的互连问题。过去晶体管变小以后,晶体管本身很快,但线路不一定跟得上。就像城市里汽车发动机越来越强,但路越来越堵,最后真正限制速度的不是车,而是路。今天先进芯片里,很多时候限制性能的不是单个晶体管不够快,而是信号在芯片内部传输太慢、太耗电。

AI数据中心如何应用时间缩放?

第二个重点案例,是AI数据中心。

手机SoC强调的是单颗芯片在几瓦功耗下如何更快;AI数据中心则是另一个极端:成百上千甚至上万颗AI芯片,如何像一个整体一样工作。论文提出一个自然问题:“whether a principle developed in the milliwatt smartphone regime survives translation to the gigawatt regime of AI training and inference.” 也就是说,一个在毫瓦、瓦级手机芯片上成立的原则,能不能扩展到千兆瓦级AI训练和推理系统。论文给出的答案是可以,但前提是必须把τ当成系统级目标,而不是只优化单颗加速器。

论文认为,AI系统最大的瓶颈越来越不是单颗芯片算得不够快,而是数据移动太慢、太耗能、太昂贵。论文原文说:“modern AI systems are dominated by data, not by compute.” 也就是说,现代AI系统的主要矛盾正在从计算本身,转向数据移动。论文还提到,大型AI集群中超过80%的能量消耗在数据移动上,超过70%的系统成本分配给数据存储。

这句话非常重要。普通人常以为AI算力就是GPU、NPU、AI芯片本身的算力,但在真实系统中,数据必须不断在计算单元、内存、存储、网络、机柜之间移动。数据一旦搬得慢,芯片再强也会等。就像一个厨师切菜特别快,但食材一直送不到厨房,整体出餐速度还是上不去。

所以,论文把AI系统的τ缩放,拆成三层方案:Unified Bus、Hi-ONE和3D Folding。

Unified Bus可以理解为给AI集群修一条统一高速路。传统AI系统里,数据可能要经过PCIe、NVLink或其他专有互连、以太网或InfiniBand、软件远程访问协议等多层通道。每跨一层,都可能需要协议转换、缓存、握手和调度。论文原文说:“Every conversion adds latency, reduces reliability, and incurs additional cost.” 每一次转换都会增加延迟、降低可靠性并增加成本。

Unified Bus的目标,就是减少这些中间环节,让数据在芯片之间、机柜之间,以更接近内存访问的方式传输。论文称,Unified Bus将数据移动简化为“conversion-free, peer-to-peer transmission”,也就是无转换的点对点传输。论文给出的结果是,端到端远程访问延迟从几十微秒降到约100纳秒,相当于系统τ在主通信路径上缩短约500倍。

这背后的行业意义是:未来AI系统竞争,不只是看单颗AI芯片TOPS有多高,也要看整个集群能不能高效协同。如果芯片之间通信慢,很多算力就会被浪费在等待上。尤其是大模型训练和推理,需要大量参数、激活值和中间数据传输,系统互连效率会直接影响最终成本。

Hi-ONE则解决另一个问题:当AI芯片之间需要越来越高带宽时,传统铜线会越来越吃力。铜线在短距离、较低速率下可靠成熟,但到了多Tb/s级别,线缆会变粗、距离受限、功耗增加、布线复杂,甚至影响机柜和数据中心的物理安装。论文原文说:“At multi-Tb/s per chip, copper becomes physically impractical.” 到了每芯片多Tb/s带宽,铜互连会变得越来越不现实。

论文提出的Hi-ONE,是一种近封装光互连模块,英文全称是“High-density Optical-interconnect-Node Engine”。论文称,Hi-ONE“delivers 8 Tb/s per module”,也就是单模块带宽达到8Tb/s,同时可以缩短SerDes电连接距离,并把面板到面板距离扩展到100米。普通人可以理解为:数据中心内部过去主要靠“电线传数据”,但当数据量大到一定程度,电线会变成瓶颈,于是要把一部分高速通道改成“光路”。

第三层是3D Folding。论文提出一个很形象的结构矛盾:在传统2.5D AI芯片里,计算能力主要随芯片面积增长,也就是N²增长;但内存带宽、I/O和供电很多依赖芯片边缘,只能按周长N增长。也就是说,芯片中间的“计算城市”越建越大,但进出城市的“城门”只沿边缘增加,最终一定会堵。

论文把这个问题称为“fan-out dilemma”,也就是扇出困境。解决办法是把原来卡在边缘的资源,搬到垂直表面上,比如通过背面供电、集成电压调节、高带宽存储、近封装光I/O等方式,让供电、带宽、互连不再只依赖芯片边缘。普通人可以理解为,过去一座城市只有外环几个入口,现在开始建设地下通道、高架通道、楼内交通和空中连廊,让整个系统不再被少数入口卡住。

这也是论文中“从二维到三维”的更深层含义。不是简单把芯片堆高,而是把计算、存储、供电、通信从原来的平面和边缘结构,重新组织成一个多层系统。

逻辑和存储的融合?

论文还讨论了一个更大的趋势:逻辑和存储正在重新融合。

在PC时代,处理器和内存是相对分离的。CPU厂商做CPU,内存厂商做DRAM,二者通过标准总线连接。这种分工成就了庞大的产业链。但AI时代不同,计算密度越来越高,内存带宽、延迟和能耗越来越成为瓶颈。HBM、3D堆叠SRAM、混合键合,本质上都是在让计算和存储靠得更近。论文原文说:“logic and memory are once again being driven into tight physical integration.” 逻辑和存储正在再次走向紧密物理集成。

这一点对产业影响非常大。过去先进逻辑制程是芯片产业皇冠上的明珠,谁掌握最先进制程,谁就有核心话语权。但如果未来系统性能越来越取决于存储带宽、封装结构、光互连和系统架构,那么产业竞争会变得更复杂。晶圆制造仍然重要,但不是唯一中心;封装、存储、互连、EDA工具链、系统软件都会获得更高战略地位。

当然,这篇论文也不能简单理解为“τ缩放已经取代摩尔定律”。它更像是一套新的方法论和路线图,而不是已经被全行业长期验证的定律。论文自己也承认,τ缩放还有很多开放挑战。

首先是EDA工具链。今天的EDA工具主要还是为二维芯片设计服务的,未来如果要把多层堆叠芯片当成一个连续整体来设计,就需要新的3D原生工具链。论文原文提出,“A τ-native toolchain — open, multi-physics, and 3D-native — is the single most important enabling investment for the next decade.” 也就是说,一个面向τ缩放的开放、多物理场、3D原生工具链,将是未来十年最重要的基础投入之一。

其次是晶圆间工艺波动。LogicFolding可能会把来自不同批次、甚至不同节点的晶圆键合在一起,不同晶圆之间的阈值电压、驱动电流、互连RC差异都会影响时序、功耗和可靠性。再往下,垂直互连本身也不是没有代价,每一个混合键合点、每一个TSV都会带来电阻、电容和面积开销。因此,并不是所有电路都适合折叠,必须逐层判断收益是否大于代价。

还有一个重要问题是能耗。论文明确指出:“τ is a time law, not a joule law.” 也就是说,τ缩放解决的是时间问题,不天然解决能耗问题。如果一个AI集群速度提升10倍,但功耗也提升10倍,那么它仍然会遇到电力、散热和成本瓶颈。因此,τ缩放必须和能耗优化同时推进,包括减少协议开销、降低每比特传输能耗、近存计算、背面供电、动态电压频率调节等。

从普通人角度看,这篇论文最值得关注的地方,不在于某个术语是否会立刻成为行业标准,而在于它提出了一个新的观察角度:未来芯片性能提升,不会只来自“晶体管更小”,而会越来越来自“系统组织更聪明”。

对华为来说,这套理论也有特殊现实背景。在先进光刻和最前沿制程受限的情况下,继续沿着传统几何缩放路线追赶会非常困难。因此,华为必须寻找更多系统级替代路径,比如三维集成、先进封装、存储靠近计算、光互连、统一系统总线等。这篇论文实际上是在为这种路线提供理论表达:即使不能永远站在最先进制程节点,也可以通过压缩系统时间、优化数据流动、重构芯片组织方式,继续提升系统竞争力。

先进封装不重要了吗?

但从整个行业看,这并不是华为一家企业的问题。即使是全球最先进的芯片公司,也同样面临摩尔定律放缓、先进制程成本飙升、AI数据中心功耗暴涨、内存墙和互连墙等问题。换句话说,华为因为外部约束更早面对了这个问题,但这个问题迟早会摆在整个半导体行业面前。

所以,这篇论文的真正价值,可能不在于它宣布了一个“新摩尔定律”,而在于它把行业正在发生的几个趋势放进了同一个框架里:先进封装为什么重要?存算融合为什么重要?光互连为什么重要?AI集群为什么不能只看单芯片算力?EDA为什么要走向3D原生?这些看似分散的技术方向,都可以被解释为同一件事:减少关键路径上的时间浪费。

如果说摩尔定律代表的是“空间缩小带来的红利”,那么τ缩放代表的就是“时间压缩带来的红利”。论文最后的判断也很明确:“the next dollar should follow τ, not nodes.” 也就是说,未来产业投资和技术布局,不应只追逐制程节点,而应追随系统中真正限制性能的时间瓶颈。

当然,τ缩放是否能真正取代摩尔定律,还需要时间、产品、成本和产业生态共同验证。摩尔定律之所以伟大,不是因为它听起来漂亮,而是因为它被几十年的产业实践反复证明。τ缩放要获得同样地位,也必须经历真实产品、真实成本、真实市场和真实生态的考验。

但至少从这篇论文看,半导体行业的竞争坐标已经在改变。未来评价一颗芯片,不能只问“它是几纳米”,还要问:它的数据移动是不是更短?它的存储访问是不是更快?它的芯片互连是不是更高效?它的封装是不是解决了供电和带宽瓶颈?它的系统架构是不是减少了等待和转换?

这可能就是这篇论文最普通、也最重要的启发:芯片的未来,不只是把晶体管做得更小,而是让整个电子系统跑得更顺。