来源:市场资讯
(来源:图灵人工智能)
学术界长期以为大值激活与 Attention Sink 强绑定,LeCun 团队打破了这一常识。
论文标题:
The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks
论文链接:
https://arxiv.org/pdf/2603.05498
优化越健康,Sink 越明显
〓表1. 优化超参数消融实验显示 Spike 与 Sink 对超参数的响应呈现明显分化
解剖 Spike:位置 0 的特殊性
剥离了“优化不良”的标签后,统计数据揭示了 Spike 的真实成因:在跨越 Llama 和 Qwen 系列的多个模型中,超过 98% 的词汇只要处于序列的位置 0,就会稳定触发大值激活。
这证明 Spike 纯粹由架构位置驱动,而非 token 自身的语义决定。
〓表2. 模型初始位置触发 Spike 的现象具有极高的普遍性
〓图1. SiLU 门控在升压与回落块中表现出近似恒等的输入输出特征
在近似恒等的条件下,前馈网络输出的第 个坐标可以被严密地近似为二次型:
其中,决定放大倍数的矩阵 定义为:
进一步的谱分析揭示了单一特征值主导现象。对于那些出现 Spike 的通道,其二次型矩阵 的特征值谱被单一的主导特征值完全控制。
〓图2. Spike 通道的特征值谱存在单一的超大主特征值
〓图3. 大值激活幅度随模型深度的“上升-平台-下降”全生命周期轨迹
从 Spike 到 Sink:归一化与几何子空间的博弈
这种稀疏化抹平了 token 之间原本的个性差异,使其沦为近乎恒定的架构符号。
当这个稀疏向量通过注意力键权重矩阵 投影后,Sink Token 的键(Key)向量被高度局限于一个极低维的子空间内:
〓表3. 注意力头部维度是决定 Sink 形成的主导架构因素
通过 t-SNE 可视化可以清晰看到这场几何博弈:在 Sink Head 中,模型的查询子空间主动靠近固定的 Sink 键,从而拉开巨大的 Logit 差距,自然而然地吸走了多余的注意力权重。
〓图4. Sink Head 中的查询向量子空间在几何距离上显著贴近 Sink 键向量
〓表4. 改变归一化策略能在保留 Sink 的同时彻底抑制 Spike
探寻 Sink 的真实本源
门控注意力的消融实验,彻底揭示了模型维持 Attention Sink 现象的真实动机。当我们为模型引入基于当前隐藏表示的动态条件门控时,Sink 现象几乎完全消失(如 Per Channel 模式下低至 4.5%)。
〓表5. 引入条件门控消除了大模型维持 Sink 现象的结构性需求
〓表6. 剔除短上下文训练数据导致 Sink 比例的大幅坍塌
这最终证实,Attention Sink 是模型在使用全局注意力机制处理短距离依赖关系时,产生的一种必然归纳偏置。
结语
热门跟贴