打开网易新闻 查看精彩图片

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。

wisemodel社区持续举办系列顶会会享,欢迎研究人员的团队报名分享与投稿

线性注意力和 SSM 这两年被频繁拿出来讨论,原因很简单:softmax attention 的二次复杂度在长上下文场景下已经越来越难以接受。但与此同时,一个同样反复出现的现象也越来越明显——只要上下文一拉长、输入尺度一放大,很多线性注意力模型就开始数值不稳定,性能迅速退化。

通常的解释路径是熟悉的:线性注意力缺少 softmax 的归一化、对输入能量敏感、需要额外的 gate 或 decay 机制来稳住训练。但 EFLA 这篇论文提出了一个更底层、也更“数学正确”的解释:问题不在注意力本身,而在于之前一直在用一个过于粗糙的数值方法去实现它。

打开网易新闻 查看精彩图片

项目地址:https://wisemodel.cn/codes/kkkkkleeiii/EFLA

01.

线性注意力其实在“解一个连续系统”

如果把 DeltaNet 这一类线性注意力的状态更新写下来,会发现它本质上是在维护一个 key→value 的关联矩阵,并在每个时间步对这个矩阵做一次小幅修正。这个过程通常被解释为 online regression 或 fast weights:

打开网易新闻 查看精彩图片

但 EFLA 指出,更自然的理解其实是:

这是一个连续时间动力系统,被强行离散化成了逐 token 的更新。

打开网易新闻 查看精彩图片

在连续时间里,这个系统的行为非常清晰:一方面,旧的记忆沿着当前 key 的方向指数衰减;另一方面,新的 value 沿着同一个方向被注入进状态中。换句话说,这是一个带衰减项和输入项的一阶线性 ODE。

而在代码里看到的 DeltaNet 更新,其实只是对这个连续系统做了一步最简单的数值积分。

02.

真正的问题:之前一直在用Euler

从数值分析的角度看,DeltaNet 使用的更新方式等价于显式 Euler 方法。Euler 的优点是简单、快,但它也是最低阶的一种数值积分方法。它的误差在单步看起来很小,但会随着步数线性累积。

把这个事实代回线性注意力,就会发现很多“经验现象”突然说得通了:

为什么序列一长就容易不稳?为什么 key 的范数一大,状态就会爆?为什么在高能输入或者 OOD scale 下模型直接崩掉?

不是模型设计出了问题,而是你在用一个一阶方法,去长期积分一个本来就带指数行为的系统。

03.

那为什么不直接“把系统解对”

听起来很自然的一个想法是:既然这是一个连续系统,那能不能直接用更高阶的方法,甚至直接算解析解?

答案通常是否定的。原因也很现实:连续系统的精确解会涉及矩阵指数,而对一般矩阵来说,解 的计算代价是

,在注意力里根本不可接受。但 EFLA 的关键发现是:线性注意力里的这个系统,有一个被长期忽略的特殊结构。

04.

关键在于:这个矩阵几乎永远是rank-1

在 DeltaNet 和类似方法中,决定衰减方向的矩阵,实际上是由当前 key 的外积构成的。也就是说,它只有一个非零方向,本质上是 rank-1。

打开网易新闻 查看精彩图片

这个结构带来了一个非常“白捡”的结果:矩阵指数可以被化简成一个闭式表达,而且计算量仍然是线性的。

换句话说,原本看起来不可能的“精确解”,在这里突然变成了可计算的。

05.

EFLA做的事情,其实非常克制

最终得到的 EFLA 更新形式,和 DeltaNet 几乎一模一样:

打开网易新闻 查看精彩图片

原来直接使用的地方,被替换成了一个由 key 能量自动调节的系数。

打开网易新闻 查看精彩图片

这个系数的行为非常直观:当 key 的能量很大时,更新会自然饱和,避免状态被一次输入冲垮;当 key 很弱时,它又会退化回原来的 delta rule 行为。重要的是,这不是人为设计的 gate,而是连续系统的精确解本来就应该长成这样。

06.

稳定性不是“调出来的”,而是算出来的

这也解释了一个论文中看似反直觉、但非常一致的实验现象:EFLA 在训练早期通常更稳、更抗噪,但在后期可能需要更大的全局学习率。原因并不复杂。精确解带来的指数衰减,本身就会压缩高能更新的幅度。如果学习率还沿用 DeltaNet 的设置,模型反而会“更新不够”。这不是缺点,而是精确解的自然代价。

07.

工程上,它并不更难用

一个很容易被误解的点是:EFLA 会不会牺牲并行性,或者只能串行计算?

答案是否定的。因为它的更新结构与 DeltaNet 完全同构,所有已有的 chunk-wise 并行技巧、硬件友好的实现路径都可以直接复用。从工程视角看,它更像是把一个近似更新,替换成了一个物理上正确的更新核。

EFLA 并没有试图“发明一种更聪明的注意力”。它只是指出了一件被长期忽略的事实:线性注意力本来就是一个连续时间系统,而之前一直在用最低阶的方法去解它。在 rank-1 这个极其常见的结构下,精确解并不昂贵。而一旦把系统解对了,很多稳定性问题会自然消失。

编辑:成蕴年

----- END -----

wisemodel相关:

系列模型:

打开网易新闻 查看精彩图片

关于wisemodel更多

打开网易新闻 查看精彩图片

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看