2026年7月3日凌晨,北大杨玉超团队联合中科院宋志棠团队的新芯片成果登上《科学》,过去动辄几小时的大脑皮层3D重建任务,现在毫秒级就能跑完。把学界公认的材料缺陷直接变成核心算力,这步走得远超行业预期。
两位男性人物肖像 · 左侧灰背景穿灰西装蓝领带,右侧粉背景穿棕衬衫红领带
被反转的行业共识 缺陷直接变成核心功能
过去几十年里,相变存储器的电导漂移一直是行业要全力规避的缺陷。材料通电后电阻会不受控地缓慢变化,直接打乱存储数据的准确性,几乎所有研发团队都在想办法把漂移压到最低。
这次研究团队反其道而行之,没有强行抑制漂移,反而通过精准调控碳掺杂的晶粒结构,让电阻变化的方向和速度完全可控。原本的噪声缺陷直接变成了步长自适应调节的天然引擎,不需要额外数字电路参与,就能在物理层面自动完成步长搜索。
芯片技术原理与测试数据图表 · 展示NDS芯片架构、大脑皮层重建流程及性能对比数据
这种设计直接绕开了传统步长调整的全部冗余操作,不需要计数器、比较器反复读写搬运数据,硬件面积直接压缩到传统方案的十分之一。整颗芯片的计算相关区域仅0.28平方毫米,比同性能传统ASIC方案小了近四分之三。
存算一体的全新范式 彻底绕开数据搬运瓶颈
传统冯诺依曼架构里,存储和计算完全分离,运算过程中90%以上的时间和功耗都浪费在数据来回搬运的路途上。神经动力系统的反复积分迭代,更是把这个瓶颈放大到了难以忍受的程度。
这颗40纳米制程的芯片直接把神经网络权重全部存在相变存储阵列里,乘累加运算完全在存储单元内部完成,数据根本不需要搬出阵列就能出结果。16级多级电阻的差分设计,让单单元可以表达正负各8个权重档位,同等面积下的信息密度直接翻了数倍。
实测数据显示,这颗芯片的神经动力系统单次迭代仅需2.12毫秒,比此前最快的同类ASIC快36倍,功耗却只有后者的二十四分之一。
为了进一步拉长器件寿命,团队还设计了时间交错调度机制,让步长漂移操作轮流在不同存储行上执行,均匀分摊工作负载。单器件十的十次方的写擦次数,在调度机制加持下,整颗芯片可以连续稳定运行数年,完全满足消费级设备的长期使用要求。
毫秒级实时建模 打开全场景应用新空间
过去要完成高精度大脑皮层重建,16核服务器要跑两个半小时,普通GPU跑神经动力系统算法也要近两秒才能出结果。换上这颗芯片,仅用426毫秒就能生成完整平滑的脑皮层网格,灰质白质的重建误差都不到0.4毫米,直接可以用于脑外科手术导航的3D打印模型。
神经动力系统建模与硬件实现图表 · 呈现3D建模流程、NDS模型演进及硬件系统构成
这个突破的意义远不止医学影像领域。此前神经动力学系统的实时计算瓶颈已经卡了行业整整半个世纪,大量高保真3D建模场景只能靠大型服务器离线运算,根本没法放到终端设备上实时运行。
- 脑机接口设备可以实时解析神经活动状态,不再需要把数据传回云端处理
- 无人驾驶车载端可以毫秒级重建动态周边环境,响应延迟大幅降低
- 文物数字化现场扫描就能实时生成无破洞的完整3D网格,现场就能核验建模质量
- AR/VR设备里的动态角色形变和空间建模,完全可以靠本地芯片完成,不用再依赖有线算力传输
更关键的是,这颗芯片在0到70摄氏度的宽温域环境下,所有电阻档位都能保持清晰间隔不会混叠,手机发热、户外低温、服务器机房散热不佳这些极端场景下都能稳定工作,完全满足从消费电子到工业设备的全场景落地要求。
芯片晶圆与科研设备 · 左侧晶圆、中间科研仪器、右侧数据波形图
后摩尔时代的新路径 跳出算力堆叠的惯性思维
过去几十年行业提升算力的思路,基本都是跟着摩尔定律走,堆晶体管数量、堆核心数、堆显存带宽,靠更先进的制程硬堆性能。但当制程走到3纳米、2纳米节点,边际收益已经快速下滑,再往前推进的成本高到难以承受。
这次团队的思路完全跳出了传统路径依赖,没有跟着数字芯片的堆叠路线走,而是直接从器件物理特性层面入手,把材料的本征特性和算法需求深度融合,用物理效应直接完成复杂运算,完全避开了数据搬运的巨大开销。这给后摩尔时代的算力提升,提供了一条完全不依赖先进制程的全新赛道。
此前相变存储器在数字存储领域折腾了十几年始终没能大规模普及,很多行业人士都觉得这条技术路线已经走到了头。这次成果相当于给整个行业指了另一个方向:不用硬凑0和1的数字存储标准,发挥模拟计算的天然优势,反而能把此前的劣势全部变成独有的竞争力。
男性人物肖像 · 白背景下穿黑西装白衬衫蓝白条纹领带
现在这颗芯片还只是原型阶段,后续阵列规模扩大、外围电路优化、和大模型接口打通之后,更多此前想都不敢想的实时建模场景都会快速落地。
说到底,算力的终极比拼从来不是谁的晶体管堆得更多,而是谁能找到最本质的物理规律,用最低的成本完成最复杂的运算。这次把材料缺陷变成核心算力的突破,恰恰证明了后摩尔时代的创新空间,远比我们此前想象的要广阔得多。
#芯片##算力#
热门跟贴