速读华为何庭波 “时间缩放”论文，“韬”定律到底想说什么？|sram|人工智能时代|何庭波|光刻|晶体管|论文

导语：当摩尔定律的空间红利逐渐见顶，华为提出以时间为尺度的τ缩放，为后摩尔时代芯片进步寻找新的坐标。

5月25日，华为海思半导体掌门人何庭波的“韬定律”在朋友圈刷屏了。

笔者查了查资料，在ChinaXiv的论文已经可以下载了，这里第一时间放出下载链接，并进行一下解读：

论文在ChinaXiv的预印本链接：

https://chinaxiv.org/abs/202605.00224

这篇题为《A Time Scaling Theory for Multi-Layer Electronic Systems》的论文，由华为半导体业务负责人Tingbo He（何庭波）署名。论文一开篇就指出，过去六十年，摩尔定律的几何缩放一直推动半导体产业前进，但如今这套产业逻辑正在发生变化。论文原文写道：“For six decades, Moore's geometric scaling drove progress in semiconductors.” 但紧接着，作者也强调，“returns from pure dimensional shrinking have flattened”，也就是单纯依靠尺寸缩小带来的收益已经趋于平缓。

这篇论文提出的核心概念是τ scaling，也就是“时间缩放”。τ在这里可以简单理解为一个系统完成关键动作所需要的“时间常数”。它可以是一个晶体管完成一次开关的时间，也可以是一条芯片内部线路传输信号的时间，还可以是AI数据中心里一批芯片协同完成一次任务的等待时间。论文的核心观点是，未来电子系统的优化目标，不应只盯着晶体管面积，而要把“时间”作为贯穿晶体管、电路、芯片、系统乃至数据中心的统一指标。论文原文说：“time itself should be adopted as the primary metric.”

过去几十年，半导体行业最重要的关键词是摩尔定律。芯片里的晶体管越做越小，同样面积里能塞进更多晶体管，芯片性能就越来越强，成本也越来越低。这就是为什么过去手机每隔几年明显变快，电脑越来越轻薄，服务器算力越来越强。

但论文认为，这套靠“缩小尺寸”推动进步的产业逻辑，已经遇到了明显瓶颈。尤其到了7nm之后，晶体管继续缩小仍然可能，但收益不再像过去那样稳定释放。论文提到，先进制程面临光刻成本、EUV折旧、设计复杂度、互连寄生效应等多重压力，最先进节点的单位晶体管成本已经不再持续下降，甚至可能反向上升。换句话说，过去行业相信“越先进越便宜、越小越划算”，但今天这个等式已经不再天然成立。

这也是这篇论文提出新问题的背景：如果不能永远靠晶体管缩小，芯片行业下一步应该缩放什么？

作者给出的答案是：缩放时间。

这听起来抽象，但换成城市交通的例子就很好理解。过去一个城市为了提高通行效率，最直接的方法是把马路修宽，车道越多，车流量越大。但城市空间有限，路不可能无限变宽。于是下一阶段的优化，就要靠立交桥、地铁、智能红绿灯、快速路、减少换乘等待、减少绕行距离。芯片产业也是类似逻辑。过去靠晶体管变小，相当于“把路修宽”；未来则要靠系统设计、封装、互连、存储、软件协同，把数据的“通勤时间”压下来。

摩尔定律也是压缩时间

论文中一个重要判断是：摩尔定律表面上是空间缩放，本质上一直在压缩时间。论文原文写道：“Spatial scaling served merely as the instrument for compressing time.” 也就是说，过去的“空间缩小”只是手段，真正让用户感受到性能提升的，是系统响应时间的缩短。消费者并不关心芯片是几纳米，真正关心的是手机打开应用快不快、AI回答快不快、游戏卡不卡、服务器训练模型效率高不高。

这就是τ缩放的基本逻辑：从晶体管、电路、芯片到系统，每一层都找到最耗时间的地方，然后尽可能把它压缩。

论文把τ拆成多个层级：晶体管层、电路层、芯片层、系统层。晶体管层看的是开关延迟；电路层看的是信号沿着线路传播的RC延迟；芯片层看的是计算和访问存储的延迟；系统层看的是芯片之间、服务器之间、机柜之间完成通信和同步的时间。论文原文提到，τ可以覆盖“picoseconds to seconds”，也就是从皮秒级晶体管开关到秒级系统响应。作者还强调，“Frequency, latency, bandwidth, and throughput are all governed by τ at their respective layers.” 频率、延迟、带宽和吞吐量，本质上都可以放在τ这个统一框架下讨论。

啥是逻辑折叠？

这篇论文第一个重点案例，是手机SoC里的LogicFolding，可以翻译成“逻辑折叠”。

普通人可以把传统芯片想象成一座巨大的单层工厂。所有生产线、仓库、办公室都铺在一个平面里。一个零件要从A车间送到B车间，可能要横穿很长距离。距离越长，时间越久，能耗也越高。传统芯片也是如此，晶体管虽然很多，但信号要沿着金属线在平面里传输。线路越长，电阻和电容带来的延迟越明显，芯片频率和功耗都会受限制。

LogicFolding的思路，是把这座单层工厂改造成多层楼。原来需要在平面里绕很远的路径，现在可以通过垂直连接上下穿行。论文对LogicFolding的定义是：“LogicFolding is a design methodology that partitions digital, analog, and memory circuits across vertically stacked active tiers.” 简单说，就是把数字电路、模拟电路、存储电路分布到垂直堆叠的有源层中，再通过高密度混合键合等方式连接起来。

这样一来，部分关键路径的线长缩短，信号传输延迟下降，时钟偏斜减少，芯片在不换制程节点的情况下，也能获得更高频率和更好能效。论文原文解释：“Signal wires become substantially shorter, parasitic RC decreases sharply, clock skew tightens, and the chip operates at a higher clock frequency at the same device node.” 这句话其实就是LogicFolding的关键：不是晶体管本身一定变得更小，而是信号走的路更短了，等待时间更少了。

麒麟2026的最新进展

论文称，在Kirin 2026上，LogicFolding实现了一个比较显著的结果：晶体管密度从155 MTr/mm²提升到238 MTr/mm²，SoC性能核能效提升41%，最高频率提升接近13%。论文原文写道：“The results, measured on Kirin 2026, are concrete.” 随后列出了这些关键数据。这组数据的关键意义在于，它不是通过简单换更先进光刻节点获得的，而是通过三维结构重组、关键路径缩短和系统级设计优化实现的。

这对半导体行业的启发很直接：当制程继续缩小的收益变贵、变难、变慢时，先进封装和三维集成会变得越来越重要。

过去行业讨论芯片先进性，最常问的是“几纳米”。但如果LogicFolding这样的路径成立，未来一个芯片是否先进，不能只看制程节点，还要看它如何组织晶体管、如何缩短互连、如何把计算和存储放得更近、如何在封装层面释放性能。换句话说，先进芯片竞争正在从“二维平面上的尺寸竞赛”，变成“三维空间里的系统工程竞赛”。

论文还特别提到SRAM。SRAM是芯片里非常关键的存储单元，CPU缓存、AI芯片片上存储都离不开它。SRAM的速度和能耗，很大程度上受位线、字线长度影响。线越长，访问越慢、能耗越高。如果通过LogicFolding缩短这些关键线路，就能提高SRAM频率，降低每比特访问能耗。论文称，LogicFolding让SRAM工作频率提升超过40%；在一个代表性处理核心上，双层折叠架构让时钟缓冲器数量减少超过50%，时钟偏斜降低25%，线长约减少30%。

这说明，LogicFolding不只是“把芯片叠起来”这么简单。它真正要解决的是芯片内部越来越严重的互连问题。过去晶体管变小以后，晶体管本身很快，但线路不一定跟得上。就像城市里汽车发动机越来越强，但路越来越堵，最后真正限制速度的不是车，而是路。今天先进芯片里，很多时候限制性能的不是单个晶体管不够快，而是信号在芯片内部传输太慢、太耗电。

AI数据中心如何应用时间缩放？

第二个重点案例，是AI数据中心。

手机SoC强调的是单颗芯片在几瓦功耗下如何更快；AI数据中心则是另一个极端：成百上千甚至上万颗AI芯片，如何像一个整体一样工作。论文提出一个自然问题：“whether a principle developed in the milliwatt smartphone regime survives translation to the gigawatt regime of AI training and inference.” 也就是说，一个在毫瓦、瓦级手机芯片上成立的原则，能不能扩展到千兆瓦级AI训练和推理系统。论文给出的答案是可以，但前提是必须把τ当成系统级目标，而不是只优化单颗加速器。

论文认为，AI系统最大的瓶颈越来越不是单颗芯片算得不够快，而是数据移动太慢、太耗能、太昂贵。论文原文说：“modern AI systems are dominated by data, not by compute.” 也就是说，现代AI系统的主要矛盾正在从计算本身，转向数据移动。论文还提到，大型AI集群中超过80%的能量消耗在数据移动上，超过70%的系统成本分配给数据存储。

这句话非常重要。普通人常以为AI算力就是GPU、NPU、AI芯片本身的算力，但在真实系统中，数据必须不断在计算单元、内存、存储、网络、机柜之间移动。数据一旦搬得慢，芯片再强也会等。就像一个厨师切菜特别快，但食材一直送不到厨房，整体出餐速度还是上不去。

所以，论文把AI系统的τ缩放，拆成三层方案：Unified Bus、Hi-ONE和3D Folding。

Unified Bus可以理解为给AI集群修一条统一高速路。传统AI系统里，数据可能要经过PCIe、NVLink或其他专有互连、以太网或InfiniBand、软件远程访问协议等多层通道。每跨一层，都可能需要协议转换、缓存、握手和调度。论文原文说：“Every conversion adds latency, reduces reliability, and incurs additional cost.” 每一次转换都会增加延迟、降低可靠性并增加成本。

Unified Bus的目标，就是减少这些中间环节，让数据在芯片之间、机柜之间，以更接近内存访问的方式传输。论文称，Unified Bus将数据移动简化为“conversion-free, peer-to-peer transmission”，也就是无转换的点对点传输。论文给出的结果是，端到端远程访问延迟从几十微秒降到约100纳秒，相当于系统τ在主通信路径上缩短约500倍。

这背后的行业意义是：未来AI系统竞争，不只是看单颗AI芯片TOPS有多高，也要看整个集群能不能高效协同。如果芯片之间通信慢，很多算力就会被浪费在等待上。尤其是大模型训练和推理，需要大量参数、激活值和中间数据传输，系统互连效率会直接影响最终成本。

Hi-ONE则解决另一个问题：当AI芯片之间需要越来越高带宽时，传统铜线会越来越吃力。铜线在短距离、较低速率下可靠成熟，但到了多Tb/s级别，线缆会变粗、距离受限、功耗增加、布线复杂，甚至影响机柜和数据中心的物理安装。论文原文说：“At multi-Tb/s per chip, copper becomes physically impractical.” 到了每芯片多Tb/s带宽，铜互连会变得越来越不现实。

论文提出的Hi-ONE，是一种近封装光互连模块，英文全称是“High-density Optical-interconnect-Node Engine”。论文称，Hi-ONE“delivers 8 Tb/s per module”，也就是单模块带宽达到8Tb/s，同时可以缩短SerDes电连接距离，并把面板到面板距离扩展到100米。普通人可以理解为：数据中心内部过去主要靠“电线传数据”，但当数据量大到一定程度，电线会变成瓶颈，于是要把一部分高速通道改成“光路”。

第三层是3D Folding。论文提出一个很形象的结构矛盾：在传统2.5D AI芯片里，计算能力主要随芯片面积增长，也就是N²增长；但内存带宽、I/O和供电很多依赖芯片边缘，只能按周长N增长。也就是说，芯片中间的“计算城市”越建越大，但进出城市的“城门”只沿边缘增加，最终一定会堵。

论文把这个问题称为“fan-out dilemma”，也就是扇出困境。解决办法是把原来卡在边缘的资源，搬到垂直表面上，比如通过背面供电、集成电压调节、高带宽存储、近封装光I/O等方式，让供电、带宽、互连不再只依赖芯片边缘。普通人可以理解为，过去一座城市只有外环几个入口，现在开始建设地下通道、高架通道、楼内交通和空中连廊，让整个系统不再被少数入口卡住。

这也是论文中“从二维到三维”的更深层含义。不是简单把芯片堆高，而是把计算、存储、供电、通信从原来的平面和边缘结构，重新组织成一个多层系统。

逻辑和存储的融合？

论文还讨论了一个更大的趋势：逻辑和存储正在重新融合。

在PC时代，处理器和内存是相对分离的。CPU厂商做CPU，内存厂商做DRAM，二者通过标准总线连接。这种分工成就了庞大的产业链。但AI时代不同，计算密度越来越高，内存带宽、延迟和能耗越来越成为瓶颈。HBM、3D堆叠SRAM、混合键合，本质上都是在让计算和存储靠得更近。论文原文说：“logic and memory are once again being driven into tight physical integration.” 逻辑和存储正在再次走向紧密物理集成。

这一点对产业影响非常大。过去先进逻辑制程是芯片产业皇冠上的明珠，谁掌握最先进制程，谁就有核心话语权。但如果未来系统性能越来越取决于存储带宽、封装结构、光互连和系统架构，那么产业竞争会变得更复杂。晶圆制造仍然重要，但不是唯一中心；封装、存储、互连、EDA工具链、系统软件都会获得更高战略地位。

当然，这篇论文也不能简单理解为“τ缩放已经取代摩尔定律”。它更像是一套新的方法论和路线图，而不是已经被全行业长期验证的定律。论文自己也承认，τ缩放还有很多开放挑战。

首先是EDA工具链。今天的EDA工具主要还是为二维芯片设计服务的，未来如果要把多层堆叠芯片当成一个连续整体来设计，就需要新的3D原生工具链。论文原文提出，“A τ-native toolchain — open, multi-physics, and 3D-native — is the single most important enabling investment for the next decade.” 也就是说，一个面向τ缩放的开放、多物理场、3D原生工具链，将是未来十年最重要的基础投入之一。

其次是晶圆间工艺波动。LogicFolding可能会把来自不同批次、甚至不同节点的晶圆键合在一起，不同晶圆之间的阈值电压、驱动电流、互连RC差异都会影响时序、功耗和可靠性。再往下，垂直互连本身也不是没有代价，每一个混合键合点、每一个TSV都会带来电阻、电容和面积开销。因此，并不是所有电路都适合折叠，必须逐层判断收益是否大于代价。

还有一个重要问题是能耗。论文明确指出：“τ is a time law, not a joule law.” 也就是说，τ缩放解决的是时间问题，不天然解决能耗问题。如果一个AI集群速度提升10倍，但功耗也提升10倍，那么它仍然会遇到电力、散热和成本瓶颈。因此，τ缩放必须和能耗优化同时推进，包括减少协议开销、降低每比特传输能耗、近存计算、背面供电、动态电压频率调节等。

从普通人角度看，这篇论文最值得关注的地方，不在于某个术语是否会立刻成为行业标准，而在于它提出了一个新的观察角度：未来芯片性能提升，不会只来自“晶体管更小”，而会越来越来自“系统组织更聪明”。

对华为来说，这套理论也有特殊现实背景。在先进光刻和最前沿制程受限的情况下，继续沿着传统几何缩放路线追赶会非常困难。因此，华为必须寻找更多系统级替代路径，比如三维集成、先进封装、存储靠近计算、光互连、统一系统总线等。这篇论文实际上是在为这种路线提供理论表达：即使不能永远站在最先进制程节点，也可以通过压缩系统时间、优化数据流动、重构芯片组织方式，继续提升系统竞争力。

先进封装不重要了吗？

但从整个行业看，这并不是华为一家企业的问题。即使是全球最先进的芯片公司，也同样面临摩尔定律放缓、先进制程成本飙升、AI数据中心功耗暴涨、内存墙和互连墙等问题。换句话说，华为因为外部约束更早面对了这个问题，但这个问题迟早会摆在整个半导体行业面前。

所以，这篇论文的真正价值，可能不在于它宣布了一个“新摩尔定律”，而在于它把行业正在发生的几个趋势放进了同一个框架里：先进封装为什么重要？存算融合为什么重要？光互连为什么重要？AI集群为什么不能只看单芯片算力？EDA为什么要走向3D原生？这些看似分散的技术方向，都可以被解释为同一件事：减少关键路径上的时间浪费。

如果说摩尔定律代表的是“空间缩小带来的红利”，那么τ缩放代表的就是“时间压缩带来的红利”。论文最后的判断也很明确：“the next dollar should follow τ, not nodes.” 也就是说，未来产业投资和技术布局，不应只追逐制程节点，而应追随系统中真正限制性能的时间瓶颈。

当然，τ缩放是否能真正取代摩尔定律，还需要时间、产品、成本和产业生态共同验证。摩尔定律之所以伟大，不是因为它听起来漂亮，而是因为它被几十年的产业实践反复证明。τ缩放要获得同样地位，也必须经历真实产品、真实成本、真实市场和真实生态的考验。

但至少从这篇论文看，半导体行业的竞争坐标已经在改变。未来评价一颗芯片，不能只问“它是几纳米”，还要问：它的数据移动是不是更短？它的存储访问是不是更快？它的芯片互连是不是更高效？它的封装是不是解决了供电和带宽瓶颈？它的系统架构是不是减少了等待和转换？

这可能就是这篇论文最普通、也最重要的启发：芯片的未来，不只是把晶体管做得更小，而是让整个电子系统跑得更顺。