光计算堪称人工智能领域的“新摩尔定律”。它一举突破电子芯片的缩放极限,不仅能实现更快的运算速度、更低的功耗,更能在矩阵运算中达成“算力规模越大,效率越高”的颠覆性突破。
半个多世纪以来,摩尔定律一直是半导体行业的发展纲领,它定义了芯片算力提升、能效优化与成本下降的节奏。通过每两年左右将晶体管密度提升一倍,工程师们实现了算力的指数级增长与成本的持续降低,为移动设备普及、互联网崛起筑牢了技术根基。
但如今,人工智能正在打破这个延续多年的增长曲线。
电子芯片的缩放时代,到头了
训练和部署大型神经网络,需要的算力增长速度,早已甩开了晶体管工艺进步的追赶步伐。当下最先进的大模型动辄拥有数千亿参数,训练一次就要动用数千块GPU,耗电量更是达到MW甚至GW别。即便半导体工艺不断迭代、专用加速芯片层出不穷,算力的实际提升幅度也已陷入瓶颈,而功耗却在一路飙升。
这就形成了一个无解的悖论:我们手握海量数据、坐拥更优算法、面临空前的算力需求,但单纯依靠电子芯片的缩放,已经走不通了。目前,数据中心的耗电量占到了全球总用电量的1%—2%,而AI负载正成为耗电增长的最大推手。有预测显示,到2028年,仅美国数据中心的耗电量就将占到全国总供电量的12%,是当前的三倍之多。
也正因如此,光计算的登场,才显得如此刻不容缓。
一场颠覆计算底层逻辑的革命
光计算的核心变革,是用光子取代电子,承担特定计算任务——尤其是作为AI核心工作负载的矩阵乘法运算。不同于电子芯片依靠晶体管与片上电阻传输电荷,光计算系统直接将数据编码进光束,利用光的物理特性完成数学运算。
光计算在AI加速领域的表现,远超纯电子系统。
光子天生就具备电子难以企及的优势。由于光子之间不会像电子那样产生相互作用,它们在传播过程中不会因电阻产生热量,这让超低成本、高带宽的运算成为可能。更关键的是,光可以轻松实现并行处理——多束光线能同时传输和处理信息,算力效率呈几何级提升。
其实光计算并非全新概念,相关研究早在数十年前就已启动。但直到最近,技术成熟度与市场应用需求才双双达标,让光计算真正具备了落地价值。如今,光学技术已经深度融入数据中心:最初只是用于机柜间的远距离数据传输,现在正逐步渗透到机柜内部的短距离连接场景。
光学互联技术的普及,又推动了光交换技术的落地——比如谷歌早在近十年前就已部署相关设备。而硅光子学、集成光电子学的技术突破,再加上模拟计算与AI概率算法的融合,共同将光计算推向了产业化爆发的临界点。
两大技术路线对决:集成光子 vs 3D光学
光计算并非只有一条赛道,这个领域已经分化出两条截然不同的技术路线,各自有着独特的优势与取舍。
集成光子技术,是将光限制在波导(蚀刻在硅或其他材料上的狭窄通道)内传输,能够实现类似传统集成电路的紧凑型、芯片级设计。这种方案的最大优势,是能与现有的半导体制造工艺无缝兼容。但它的短板也十分明显:光在波导中传播会产生损耗,高密度集成的元件之间会出现热串扰,导致性能下降;同时,芯片的二维平面结构,也限制了并行运算的潜力。
3D(自由空间)光学技术则另辟蹊径。它让光在三维空间中自由传播,摆脱了波导的束缚。这不仅彻底解决了集成光子技术的损耗与串扰问题,更解锁了真正的大规模并行运算能力。在自由空间光学系统中,光束可以在三个空间维度上同时完成分裂、调制与重组。这意味着,电子或集成光子系统需要数千步串行操作才能完成的矩阵运算,在3D光学系统中一步就能搞定。
借助三维空间的独特优势,光计算开辟出全新的缩放定律——算力越强,效率越高。
总部位于英国牛津的Lumai公司,正是3D光学路线的践行者,该公司正在研发基于这一技术的AI加速器。其架构原理十分巧妙:输入向量由光源阵列进行编码,再通过透镜在三维空间中展开,覆盖整个矩阵的宽度;矩阵权重则由空间光调制器(比如电子显示面板)实现,面板上每个像素的亮度都会对穿过的光线进行调制,本质上就是在完成乘法运算。
最后,透镜会将经过调制的光线重新汇聚,生成输出向量。在这套方案中,作为AI推理核心瓶颈的乘积累加运算,几乎不消耗任何能量;系统功耗主要集中在光源、光电转换、矩阵更新以及数字控制电路上。
更值得一提的是,3D光学方案完全可以基于成熟的商用技术落地——激光器、透镜等元件都能针对光计算场景做优化,具备大规模量产的成本优势。而它最大的亮点,是清晰可见的缩放潜力:随着元件密度和精度的提升,并行运算的规模将呈平方级增长,而非线性增长,这为算力的持续突破预留了巨大空间。
光计算AI加速器的架构逻辑
光计算系统并非要取代通用处理器,而是作为算力增强的协处理器存在。关键的洞察在于:AI推理工作负载中,80%—90%的运算周期都消耗在矩阵向量乘法上,而这恰恰是光计算最擅长的领域。
一套混合架构应运而生:用光计算核心负责矩阵运算,用数字电子系统处理其余任务。
•光计算核心:利用光子完成矩阵向量乘法。
•数字控制单元:基于ASIC或FPGA的控制器,负责处理非线性激活、归一化、数据格式转换以及系统调度。
最终成型的协处理器,可以通过PCIe插槽直接接入标准数据中心基础设施,与现有软件栈无缝兼容,同时让推理任务的速度和能效实现量级级的跃升。
光计算AI加速器,完美适配标准数据中心的硬件形态。
近期的多项技术验证,都印证了这种架构的可行性。微软研究院的模拟光计算机(AOC),在优化问题与AI推理任务中实现了百倍能效提升,轻松解决了传统计算机难以处理的复杂银行交易与核磁共振成像重建问题。
Lumai公司的架构则进一步拓展了这一技术的边界。根据其技术路线图,相比纯硅基芯片,该方案的算力能提升50倍,而功耗仅为前者的10%左右——这种每瓦AI Token的能效表现,是纯硅基方案难以企及的高度。
牺牲精度换能效?这笔买卖很划算
由于光计算系统工作在模拟域,工程师可以通过调整信号强度,直接控制能耗:降低信号振幅,就能减少整体运算功耗。如果再搭配优化的量化算法,让模型精度与模拟信号相匹配,就能在保证模型准确率的前提下,实现功耗的大幅下降。可以说,光计算的模拟特性,为系统设计提供了更多灵活度。
破解AI的存算瓶颈困局
在AI工作负载中,内存带宽与算力之间的关系,远比人们想象的更复杂。虽然大家常说AI任务受限于内存,但实际情况会因运算类型、模型架构与部署场景的不同而有巨大差异。
注意力机制层与全连接网络中的稠密矩阵乘法,属于典型的算力密集型任务——而这正是光计算的主场。一次完整的矩阵向量运算,在光计算系统中一个周期就能完成;反观数字脉动阵列,则需要数百个周期,还伴随着大量数据搬运操作,无论延迟还是能耗都远逊于光计算。
理想的系统级解决方案,是为不同类型的运算匹配最合适的技术。比如,针对大模型预填充阶段的大规模矩阵乘法,可以部署算力优化的光加速器;而面对内存受限的任务,则可以选用集成额外内存的光计算方案。这种混合策略,能够精准击破不同场景下的性能瓶颈,而非用一种方案包打天下。
光计算的缩放魔法:越大越强,越算越省
光计算最令人惊叹的特性,尤其是3D光计算,在于算力规模越大,能效反而越高。这与传统电子芯片形成了鲜明对比——后者的芯片规模越大、速度越快,功耗就会不成比例地飙升,能效提升则越来越乏力。
我们以AI模型的核心运算——光矩阵向量乘法为例:运算所需的光能量与向量宽度N呈线性关系,而运算吞吐量却与N²呈正相关,因为每个输出值都依赖于所有输入值的计算。
由此,一条颠覆式的缩放定律诞生了:
能耗 ∝ N,算力 ∝ N² → 能效 ∝ N
换句话说,光计算的规模越大,能效优势就越明显。
与传统硅基芯片不同,光计算的缩放,不依赖晶体管的微型化,而是依靠提升光向量宽度、优化光电转换效率与提高光时钟频率。更关键的是,这些技术方向还有巨大的挖掘空间;反观电子芯片,想要提升算力,只能不断堆砌晶体管,最终导致复杂度、功耗与发热量同步失控。
算力革命的下半场,由光主导
光计算为算力拓展了多条超越电子芯片的缩放路径:
1.向量宽度缩放:正如前文所述,矩阵规模越大,能效越高。更大的光计算系统,能实现更优的每焦耳性能,完美适配数据中心与大模型推理场景。
2.元件效率提升:调制器、探测器、光源等核心元件的光电转换效率,每一代都会有显著进步,而这些提升会直接转化为系统级的能耗降低。
3.更高的光时钟频率:光信号的调制与探测频率可以达到数十甚至上百吉赫兹。随着光电子接口技术的发展,时钟频率还会持续攀升,且不会像电子开关那样产生严重的热损耗。
这些趋势共同指向一个结论:光计算不仅会追上硅基芯片的算力水平,更会在晶体管技术触及天花板后,引领算力继续指数级增长。
新定律开启新世代
如果说摩尔定律定义了电子芯片微型化与集成化的时代,那么下一个算力时代,将由计算介质的多元化来定义——为不同的任务,匹配最合适的物理介质。光子不会取代电子,而是作为电子的最佳搭档,在AI核心运算场景中发光发热,解锁与AI发展轨迹相匹配的算力增长新曲线。
在这个全新的范式中,技术进步的衡量标准不再是晶体管数量,而是能否充分利用光的速度与并行特性,赋能AI计算。而随着这些特性的深度挖掘,每焦耳能耗能完成的运算量,也会迎来质的飞跃。
未来的计算图景已然清晰:算力的持续增长,不再依赖晶体管的不断缩小,而是源于对物理规律的更精妙运用。
原文:https://www.allaboutcircuits.com/industry-articles/the-new-moores-law-why-optical-computing-could-redefine-scaling-for-ai/
邀请函
热门跟贴