2017年6月,Google发表了一篇名为《Attention Is All You Need》的论文,论文提出的Transformer架构让人工智能的进程大幅加速,是当代人工智能产业的里程碑。
一个月后,《自然·光子学》封面刊登了一篇名为《Deep Learning with Coherent Nanophotonic Circuits》的博士论文,论文的学术意义远远超过了同期的Transformer,但在工业界并未泛起太多涟漪。
两篇论文打开的两个世界,多年后会以一种意料之外的方式交汇。
2017年,《Deep Learning with Coherent Nanophotonic Circuits》刊发
论文的主要作者是两位MIT在读博士生,一作沈亦晨、二作Nicholas Harris,初出茅庐,名不见经传,倒是共同导师Marin Soljačić名声在外,因开发磁耦合共振无线充电技术享誉业界,是纳米光子领域的学术扛把子。
沈亦晨和Nicholas Harris提出并验证了一种新的算力架构:利用相干纳米光子电路(光计算芯片)加速深度学习中的核心运算——矩阵乘法,由此突破传统算力芯片(如GPU)的性能瓶颈。
论文直接打开了光计算产业化的大门,发出后引起学术界轰动。两位作者也没闲着,分别成立了两家光计算公司——曦智科技(Lightelligence)与Lightmatter,为光计算的产业化凿开了第一个口子。
从历史的后见之明看,2017年是一个“计算”的大年,OpenAI开始以Transformer为基石训练GPT模型;英伟达9月正式宣布转型为“AI计算公司”,发布了首个专为深度学习设计的Tesla V100架构,向统治算力世界迈出了第一步。
明面上,围绕人工智能的军备竞赛徐徐展开,暗地里,一场与光有关的赛跑开始了。
光的年代
21世纪未必是生物的世纪,但21世纪20年代大概率是光的年代。
从80年代的大型机、到90年代的PC、再到智能手机开辟的移动互联网时代,“计算”这件事的主角都是电芯片。英特尔的CPU、英伟达的显卡、高通的手机芯片,都属于电芯片。
光与电都是信息的载体,集成电路(电芯片)以电子为载体,通过金属导线传递信息;集成光路(光芯片)以光子为载体,通过光波导传递信息。
与电子相比,光子无质量、不带电、彼此不相互作用,传递信号时几乎不会互相干扰,也不产生热损耗,在追求低延迟、低功耗的领域有着无可比拟的优势。
但在过去的半个多世纪里,“计算”这件事的主流是电芯片,伴随摩尔定律持续微缩,晶体管密度指数级提高,电芯片以一己之力构筑了现代社会。光芯片的产业化一直不温不火,直到生成式AI的爆发。
人工智能催生了人类有史以来规模最壮观的“计算”,并呈现两个与众不同的特点:一是对算力规模近乎无限的汲取;二是对通信效率近乎极端的追求。
这种特征又催生了两个与光芯片有关的市场:光互连和光计算。
这两年大赚特赚的光模块,就是典型的光互连产品。简单来说,光互连解决的是芯片、机柜之间的通信效率问题,被AI数据中心的建设热潮迅速催熟。
在业内,光模块被划分在Scale-out(横向扩展)应用,主要针对数据中心中独立服务器或机柜之间的互连,是光互连目前发展最成熟、规模最大的细分市场。
与Scale-out对应的是Scale-up(纵向扩展),即通过高速光电互连将GPU、存储器等组件高度集成。英伟达AI数据中心每个计算节点的多个GPU就采用NVLink互连技术,目前被炒得火热的CPO,未来也有望被用来解决芯片之间的互连问题。
与光互连商业化遍地开花相比,光计算的商业化进程只能算刚刚“抬了个头”,但其勾勒出的潜在市场空间,已经足够吸引人投资。
光互连让数据搬运得更快,光计算直接对准了靶心:算得更快。
电芯片(如GPU)的长处是“矩阵运算”,计算一个N×N矩阵和N维向量的乘法,需要大约N²次乘加操作。GPU算得比CPU快,靠的是“人多力量大”,用大量的运算器分担计算量,通过并行计算提高效率、压缩时间。
CPU和GPU运算器数量之间的差距,注定了GPU当下的统治地位,但它的王权并非固若金汤。
CPU和GPU运算器数量之间的差距;图源:tecadmin.net
大模型时代,推理对应的“N”可以达到10⁴-10¹²,计算量不可同日而语。GPU虽然是主流方案,但瑕疵已经开始显现。
GPU虽然可以暴力增加“人手”提高效率,但晶体管微缩接近极限,“招工”的瓶颈肉眼可见。加上GPU运算原理的天然缺陷,每个运算器执行计算都需要从内存读取数据、运回数据,一来一回,不可避免地导致延迟。
如果说GPU是悬梁刺股的学霸,光芯片就是典型的天赋型选手。
一束光线穿越眼镜镜片的过程,其实就是一系列复杂的计算(即波函数的傅立叶变换),这种自然而然的“加权求和”过程,恰好就是矩阵运算所需要的操作。
把这个逻辑套在光芯片上,输入光进入MZI(光芯片的基础计算单元,相当于GPU的晶体管)被分成两个部分,每个部分发生不同的相位调整,可被视为一次乘法操作,当两束光从MZI中穿出相遇被叠加在一起,就完成了一次乘加累计的操作。
MZI实现一次乘加累计的过程;图片来源:曦智科技
整个过程只需要光在芯片上“走”一遍,在光穿过芯片的瞬间完成计算,过程缩短到几十皮秒。
把光学器件微缩并集成在一颗芯片上的设想,60年代就在大名鼎鼎的贝尔实验室提出,但受制于光学器件体积,再加上电芯片有苹果这个大甲方,其制程进步实在惊人,光芯片长期被束之高阁。
人工智能创造了一个令人望而生畏的算力市场,也让光计算迎来曙光。
这个市场有多大?2017年至今,英伟达的游戏业务年收入从40亿美元增长到113亿美元,数据中心业务从3.2亿美元暴增到1150亿美元。即便如此,英伟达的GPU依然处于供应紧张的状态。
当一个市场足够大,看上去再不可能的想法,都能找到愿意冒险的资本推动。这就是光计算萌芽的空间:哪怕英伟达吃下99%的算力市场,剩下1%的份额也足够一个新的算力架构生存。
迟到了半个世纪,产业界的目光重新落在了光计算上。
工程问题
一项技术从论文走向落地,往往要经历三个阶段、解决三个问题:一是科学问题,二是工程问题,三是商业问题。
科学问题解决得好,可以拿诺贝尔奖;工程问题解决得好,可以拿大把投资;商业问题解决得好,可以创造伟大的公司。
2017年的《Deep Learning with Coherent Nanophotonic Circuits》,基本完成了光计算的理论大厦建设,让光计算从科学问题变成了工程问题。
科学解决的是可行性问题,工程解决的是实现路径。2019年4月,曦智科技发布全球首款光子计算原型板卡,让产业化向前迈了一大步。当时,光计算的状况可以借用开尔文男爵的那句名言来概括:
光计算的大厦已经基本建成了,只不过在阳光灿烂的天空下,漂浮着三朵小乌云。
第一朵“乌云”是生产制造。
电芯片是在芯片上集成数量庞大的晶体管,光芯片则是集成各类光学元件。早年由于光学元件体积庞大且缺乏非线性材料,连处于人才技术储备巅峰时期的贝尔实验室都无从下手。
2000年后,归功于光互连技术的推进和光模块产业的铺路尝试,原本用于电芯片生产的CMOS技术得以被运用至光芯片,意味着后者能够像电芯片一样被大规模且低成本地制造出来。
2021年,曦智科技发布了高性能光子计算处理器——PACE,在单片上集成超过10000个光子器件,并验证了光子矩阵计算在处理特定高度复杂的数学模型(如伊辛问题、最大割问题)时,相较于传统高端GPU具有几百倍的运算速度优势和极低的计算延迟。
到2025年3月推出的PACE 2,集成的光子器件已经超过了40000个,支持光128 X 128矩阵,是上一代的4倍。
第二朵“乌云”是迁移成本。
要让光计算芯片“好用”,核心在于让开发者对光物理过程彻底无感,实现从传统GPU到光芯片的平滑迁移,即插即用。
曦智科技在开发硬件的同时,投入了大量资源开发专用的软件开发工具包(SDK)和编译器,到发布PACE 2时,已经能够提供全面可配置的光学矩阵,软件栈无缝对接PyTorch、ONNX等主流深度学习框架。
类似地,LightMatter也为其光计算芯片专门开发了Idiom编译器软件栈。
Lightmatters的光子AI加速器Envise
两边达成的效果是一致的,即让开发者对光物理过程彻底无感,无需懂得光学干涉原理,继续使用他们熟悉的PyTorch、TensorFlow编写模型,编译器就会自动在底层完成算子映射、图优化,并将其转化为控制光路相位的指令。
第三朵“乌云”是通用性。
不只是光计算芯片,这其实是所有刚刚崭露头角的计算芯片共同面对的大山,是最着急、也最急不来的难题。
光计算芯片天生带着偏科的基因,虽然精通矩阵运算,但并不是所有算法的核心都基于矩阵运算,再加上当前主流的通用大模型都是基于电芯片的内存结构和算力特点被设计出来的,想要“什么都能算”,就需要各个场景逐一打通。
曦智科技第一代PACE更像是为了解决极其特定的数学难题(如伊辛模型、组合优化问题)而定制的ASIC(专用集成电路),到第二代PACE已经可以做到根据不同AI模型执行任意形式的线性矩阵乘法,初步具备向更多场景拓展的潜能。
就目前而言,最重要的是找到一个能够实现商业闭环的场景、一个专用的市场——就像当年AlexNet证明了GPU在图像识别上无人能出其右的能力。
这个市场可以不那么大,但得足够开启需求->投资->研发->应用的闭环,让一家创业公司能够自给自足,在长期可持续地发展中积累起人才、技术和经验,才能向更多应用拓展。
GPU诞生超过三十年,最早只是在CPU身边“打辅助”、负责图形计算,然后从AlexNet出发,从图像识别到自动驾驶,再到通用大模型训练,面对过数不清的corner case和代码屎山,通过对真实场景的实际问题摸排、将问题标准化、建立方法论。
所谓“魔改”,本质上是每一类计算芯片从专有到通用的一条必经之路。
如今的光计算芯片站在了和当年GPU相似的位置上,等待一个属于自己的“AlexNet时刻”。
奇点前夜
光计算等待着“AlexNet时刻”,中国芯片产业也在期待着一条重新划定的起跑线。
放在十年前,芯片产业在中国都还是冷板凳坐穿的冷门赛道。
一方面,英特尔、AMD、英伟达几座大山把持着高利润处理器市场,国产芯片在先进制造上欠账太多,想要追赶,要补的课太多太贵,一颗高性能芯片从设计到流片就要上亿元人民币,大把资金砸进水里,都不一定能听到一声响。
另一方面,全球供应链一度畅通无阻,芯片在美国完成设计,隔天就能被空运到中国台湾的台积电进行生产制造,然后被运送到深圳的组装厂,被组装进手机、PC。
即便只掌握供应链末端,也能以庞大的出货量换取养活整个电子产业的利润。
但这种“没能力、没动力”的局面,被2018年一纸“实体清单”打破,芯片自主化被迫加速。
与此同时,Transformer引发的模型预训练热潮催化了数据中心建设浪潮,进一步凸显了国产高性能计算芯片的缺位。
2018年-2022年,国内芯片设计公司从1698家翻倍到3243家[1],但其中涉足高性能计算芯片者寥寥,而与巨额投资难以匹配的出货量和收入,更露骨地揭示了国产高端芯片与国外巨头的恐怖差距。资本寒冬随之而来,开启了一波大浪淘沙。
光计算商业化和中国芯片自主化,两条原本平行的轨迹,由此产生更加深刻的交集。
在外部环境瞬息万变的这几年,曦智科技的经营从未被动摇,其独特价值反倒被一再凸显。
一方面,曦智科技形成了“光互连+光计算”的业务组合,两者技术同源又相互补充。
比如Photowave兼容英伟达GPU以及PCIe/CXL协议,既可外供也可为自家光计算产品所用。光互连业务收入从2023年的3800万元跃升至1.06亿元,开始成为稳定的现金牛。
另一方面,由于光计算芯片从原理到制造工艺与传统电芯片全然不同,反而摆脱了国内芯片制造在先进制程上的“欠账”,相当于另开了一条赛道、在新的起跑线上重新起跑。
与GPU/CPU卷到7nm以下相比,光计算芯片不依赖先进制程,国内晶圆厂一条45/65nm成熟CMOS产线即可满足要求,性能提升不靠增加晶体管密度,而在于形貌控制,比如提升波导侧壁的光滑度、采用特殊的刻蚀和沉积工艺等等。
由各类光元件组成的光芯片;图源:Santec
随着LightMatter逐渐在商业化压力下将发展重心腾挪至光互连,某种意义上,曦智科技已经是光计算芯片“全村的希望”。
对比国内外芯片产业竞争业态,虽然国内因为自主性的急迫和更大的市场,对于芯片创业公司来说机会更大,但也意味着成熟生态的缺失,需要从0到1、一砖一瓦地建立,是对技术底蕴和工程能力的双重考验,道阻且长,唯有咬牙深耕。
4月28日,曦智科技正式登陆港交所,成为“全球AI光算力第一股”。上市首日收盘价为886港元,较183.2港元发行价上涨383.62%。
4月28日,曦智科技在港交所上市
公开信息显示,曦智科技国际发售及公开发售超额认购倍数接近5800倍;基石投资者阵容强大,汇集阿里巴巴、GIC、贝莱德(BlackRock)、富达国际等20家全球顶级机构。
根据曦智科技招股书,当前其光计算产品正在从技术突破与研发阶段向生态构建及市场渗透阶段过渡,应用场景从科研机构和高校实验室向更多专业领域扩展。
预计2030年后,随着硬件成本进一步下降和性能跃升,应用范围将拓展至汽车、量子计算等更广泛的领域,并在训练、超算以及通信领域成为电芯片的主流替代方案。
某种程度上,曦智科技并不只是光计算的参与者,更是技术与生态的定义者,领跑的优势是能够获得更多的瞩目和资源的倾斜,但更要背负拓荒者的使命,无前路可循,每一块通向商业化的基石,都需要亲自去摸索、铺垫。
尾声
高科技产业的一切必然,其实都是一种后见之明。
人们总是习惯用今日的辉煌去推导昨日的英明,但面对未知,大多数时候没有万全之法。历史的转折点总是在诞生的时候无人问津,在往后的日子里被反复传唱。
当年如果没有黄仁勋向世嘉求来的500万美元“救命钱”、苦熬到Riva 128问世,就没有当下英伟达的所向披靡;如果没有2019年上海超级工厂的光速落地和中国供应链的救火,特斯拉很可能早已被产能地狱拖向真正的破产地狱。
伟大始于无名,这就是高科技产业不断重复的故事:每一个成功者都没有先验那条必然的道路,而是那条崎岖的道路被成功的脚步丈量出了某种必然。
曦智科技正走在一条崎岖道路上,摸索着用光改写计算的可能。
[1] 技术创新驱动设计产业升级,魏少军
[2] 光子计算领域双雄出现!一篇顶刊论文,两位麻省理工学院天才的故事,MIT科技评论
[3] “纳米光学先驱”师生档详解光计算,全球首款商用光子芯片将问世,DeepTech
[4] 上帝说:要有光!硅光子技术的前世今生,雷锋网
[5] 硅光芯片的春天又要来了?EET-China
[6] 曦智科技招股书
热门跟贴