来源:大数据文摘出品

今天要聊的是牛津大学的学者发布的一篇论文:

———NoProp:一种完全不靠前向/反向传播的神经网络训练方法。

图注:论文地址:

https://arxiv.org/pdf/2503.24322

换句话说,就是深度学习训练居然还能不用forward/backward?

读完之后,发现作者真敢想,也真敢做,甚至还在MNIST和CIFAR-10/100上干到了SOTA级别。

01 传统深度学习的“老路”

现在主流的神经网络训练,基本都靠反向传播(back-propagation)。

你从输入跑一遍forward,输出结果和标签比一比,算出损失,再把误差信号沿着神经网络一层层反传下去,调整每一层的参数——这就是经典BP算法的全流程。

图注:反向传播可视化,图片来自于《AI In 100 Images》。

它简单粗暴,好用到称霸深度学习几十年。但BP其实也有一堆槽点:

  • 完全不符合生物神经元的工作方式,太“机械”了

  • 要存一堆中间激活,内存压力大

  • 梯度要一层层传,想多机/分布式训练很难搞

  • 还容易出现梯度消失、灾难性遗忘等毛病

所以,其实很多年都有人想另辟蹊径,不靠BP来训练网络。但一直没啥特别靠谱的“新流派”能挑战BP的地位。

02 NoProp:彻底不要forward和backward

NoProp,野心很大:既不要反向传播,也不要传统的前向传播。

它的核心思想其实很“反直觉”:每一层都自己学会“去噪”一个被加了噪声的目标(标签),且每一层的训练都是独立的,完全不需要梯度从头传到尾,也不需要逐层前向推理。

据说,灵感来自扩散模型和flow matching(没错,就是最近AI图像领域炙手可热的扩散流派);本质上,每一层都是一个“去噪专家”,收到一个被加噪的标签和输入后,自己想办法把标签还原回来;另外,训练时直接喂每层加噪的“假标签”,让它自己去学还原;而推理时,把上一层的输出当成“新噪声”,继续去噪,直到最后一层输出

03 技术细节

技术细节大概有4步,

一:数据处理每个样本(x, y),先把y(标签)映射到一个高维embedding空间,比如one-hot或learnable embedding。

二:加噪声按照固定或可学习的噪声schedule,给标签embedding加上高斯噪声,制造一个“带噪标签”。

三:每层单独训练设计一套动态块,每层动态块都拿到(带噪标签,图片x)输出去噪后的标签embedding;损失函数是预测的embedding和“干净标签”之间的L2距离,加上分类损失和KL散度正则

四:推理时流程从纯噪声出发,反复用每层动态块去噪,最后一层输出的embedding送给softmax线性层,得到分类结果。

这种做法,和传统扩散模型的“反噪”过程很像,但目标不是还原图像,而是还原标签。

04.不靠BP,效果到底咋样?

作者直接在MNIST、CIFAR-10、CIFAR-100上正面对比了NoProp和主流方法。结果是:NoProp在MNIST上能和BP打个平手,CIFAR-10/100也极具竞争力。

如上图,NoProp-DT直接干平甚至略超传统BP,远超以往“无反向传播”方法。另外,内存消耗也更低,训练更容易分布式/并行;连续时间版本(NoProp-CT、NoProp-FM)在CIFAR-10/100上也比主流ODE方法表现更高效。

NoProp根本不学“分层抽象表示”——每层的“表示”都是用户指定的(比如高斯加噪的标签embedding),它只管把噪声还原成标签,不去学什么“从低到高的抽象特征”。

其实,这就带来一个问题:“分层抽象表示”真的是深度学习不可或缺的前提吗?NoProp的实验表明:只要标签embedding设计得好,不学feature也能干正事。

有兴趣的朋友可以看原文

(https://arxiv.org/pdf/2503.24322),

NoProp的创新点和实验设计都非常细致,也许这条“去BP化”的路,能给AI带来不一样的想法。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)