一道128×128的矩阵题,顶级英伟达GPU得吭哧吭哧算上一整天,而中国实验室里一枚不靠EUV光刻机做出来的小芯片,一分钟左右就把答案吐出来了。这不是宣传稿里夸大的修辞,而是发表在《自然·电子学》上、有同行评议背书的硬数据。
在性能方面,这款芯片在求解32×32矩阵时已超越高端GPU内核,对于更大规模的128×128问题,其计算吞吐量比顶级数字处理器快1000倍以上——GPU需要一整天完成的任务,这款芯片大约一分钟就能搞定。在同等精度下,它的能效也提升了100倍以上。
更扎心的是:这枚把英伟达打得不吱声的芯片,用的不过是十几年前就量产的成熟工艺。所谓"卡脖子"的EUV光刻机,在这条技术路径里压根没出场。
业内人都清楚,中国大陆能稳稳量产28纳米,DUV设备早就铺开。这条工艺等级听起来"老旧",但配上对的架构,照样能干出让世界眼红的活。
主角是北京大学人工智能研究院孙仲研究员牵头的团队。绕开光刻机"卡脖子",北京大学研究的新型芯片问世,计算精度从1%跃升至千万分之一。
这款芯片可在28纳米及以上成熟工艺量产,绕开光刻机"卡脖子"环节,能够支撑6G、具身智能及AI大模型训练等多个前沿场景。千万分之一是什么概念?相当于过去模拟计算的精度被一脚踩到油门底,往前冲了五万倍。
成果分量到底有多重,看一个细节就明白:2025年12月25日,由科技日报社主办、部分两院院士和媒体负责人共同评选的"2025年国内十大科技新闻"中,北京大学团队研制的"高精度可扩展模拟矩阵计算芯片"成功入选。
紫光国微、兆易创新则因ReRAM产业化前景被市场看好而获得资金追捧。这种反应不是炒概念,而是产业链上下游都嗅到了真金白银的味道——毕竟用的是现成产线,不需要重新砸钱建厂。
回看西方这几年精心搭起来的制裁体系,逻辑其实就一句话:你做不出最先进的光刻机,你就出不了最强的芯片。
这个等式过去成立,是因为大家默认必须在数字芯片这条赛道上挤独木桥。可一旦有人换了赛道,等式就直接崩了。28纳米能干顶级AI训练的活,这事放在三年前几乎没人敢说。
模拟计算不是新鲜事物,反而带着一股"老家底"的味道。
上世纪三四十年代,科学家用电压、电流直接代表数字做运算,速度快、能耗低,可惜算出来的结果飘得厉害——温度变一下、噪声大一点,答案就跑偏。后来数字计算靠着稳定可靠的0和1赢了这场世纪大战,模拟计算被扫进了博物馆。
孙仲团队干的事,说白了就是把这个被判了"死刑"的老技术重新拉回擂台,并给它装上了一颗新心脏。
直觉上的优势其实从来没变过。人类从小算"1+1",并非动用28个晶体管,而是"一根筷子加一根筷子等于两根筷子"的物理类比。
若将"筷子"缩至电子尺度——1个电子加1个电子是2个电子,这永远成立。要做计算的时候,就可以直接通过物理定律来做计算——相较于28个晶体管,电子级类比在硬件资源开销与能耗上均下降数个量级。
真正难啃的硬骨头一直是"算不准"。团队的破局思路有点像考试里的"先估算再精算"。每个存储单元均为"1晶体管-1电阻(1T1R)"结构,可在八个导电态间切换,对应3-bit分辨率。
通过"逐位切片"策略,将原始矩阵A分解为若干3-bit子矩阵,再分别映射至不同阵列中,从而实现多位精度的累积运算。
在算法层面,系统通过迭代更新残差和增量,实现逐步逼近真实解的过程。每一轮迭代中,低精度求逆电路提供近似解,高精度乘法模块计算残差修正,从而不断提升精度。
通俗讲,第一遍先用粗糙地图圈出大致方位,第二遍掏出高精度仪器锁定坐标,第三遍把误差摁到小数点后好几位。
之所以能这么玩,关键在于核心器件用的是阻变存储器,也叫RRAM。由阻变存储器阵列驱动的模拟计算芯片,凭借物理定律直接进行高并行、低延时、低功耗运算的先天优势,重新进入研究视野。
这种器件国内多家企业已经具备量产基础,不需要在某个被封锁的稀有材料或独家工艺上死磕。换句话说,这条路的产业链根基扎实,不是空中楼阁。
值得专门点出的是,国内外搞存算一体的团队不少,但绝大多数还停留在"矩阵乘法"这一步,干的是AI推理的活。
国内外许多团队集中于研究矩阵乘法(AI推理的核心),而北大团队的特色在于专注于更具挑战性的矩阵方程求解(AI二阶训练的核心)。难度差了一个量级,含金量也差了一个量级。
把芯片做出来只是上半场,能不能在产业里活下来才是真正的考题。这枚芯片瞄准的几个方向,恰好都是当下最缺算力、最烧钱的赛道。
实验模拟了一个16×4的MIMO系统,传输对象为"北京大学校徽"的100×100二值图像,通过256-QAM调制编码后发送,仅进行两次迭代后,接收端恢复出的图像已与原图完全一致。能效高、延时低、还能扛大规模信道——这正是6G基带处理器最迫切的需求清单。
第二个是AI大模型训练。当下大模型的胃口越来越大,光靠堆GPU已经撑不住电费账单。所谓二阶训练方法早就被理论证明能让模型收敛得又快又稳,可一直没人敢用,因为单次计算量大到没有任何数字芯片能扛。
矩阵求逆操作要求的计算精度极高,时间复杂度达到了立方级,而模拟计算凭借物理规律直接运算的方式,具有低功耗、低延迟、高能效、高并行的天然优势。这块空白填上之后,整个AI训练范式都可能重写。
第三个是科学计算和超算。气象预报、流体仿真、量子化学、热扩散分析,这些任务说到底都是在解大型的偏微分方程,最终都得归到矩阵运算上。
模拟芯片在求解天气预报和流体动力学中使用的偏微分方程等特定任务上,速度不仅超越英伟达H100,也超过了AMD Vega 20。对于天天为电费发愁的国家级超算中心来说,能效翻百倍意味着什么,不用算账都能感受到分量。
研究团队表示,未来对芯片电路的进一步改进还能继续提升性能,他们的下一步目标是构建更大规模、完全集成的芯片,以更快的速度处理更复杂的问题。
器件一致性、阵列良率、配套的编译器和软件生态,每一项都不轻松。但好消息是,这些活儿都是中国半导体产业过去十年最熟悉的赛道。
把镜头拉远一点看,这件事的意义早就超出了一颗芯片本身。西方的制裁逻辑建立在"路只有一条"的假设上——堵死EUV,就堵死中国高端芯片的未来。
技术封锁这种东西,短期内能添堵,长期看反而会逼出意想不到的创新路径。光刻机依然重要,先进制程依然值得追,但那已经不再是中国芯片产业唯一能走的路。
当世界还盯着7纳米、5纳米、3纳米打转的时候,中国研究者把目光抬高了一个维度——计算范式的革命,比制程数字的游戏,要刺激得多。
热门跟贴