首个Token为何沦为数值垃圾桶？图灵奖得主LeCun团队解构大模型底层机制

新浪财经

2026-03-10 00:07 ·河北 ·优质财经领域创作者

来源：市场资讯

（来源：图灵人工智能）

转自PaperWeekly，仅用于学术分享，如有侵权留言删除

学术界长期以为大值激活与 Attention Sink 强绑定，LeCun 团队打破了这一常识。

论文标题：

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

论文链接：

https://arxiv.org/pdf/2603.05498

优化越健康，Sink 越明显

〓表1. 优化超参数消融实验显示 Spike 与 Sink 对超参数的响应呈现明显分化

解剖 Spike：位置 0 的特殊性

剥离了“优化不良”的标签后，统计数据揭示了 Spike 的真实成因：在跨越 Llama 和 Qwen 系列的多个模型中，超过 98% 的词汇只要处于序列的位置 0，就会稳定触发大值激活。

这证明 Spike 纯粹由架构位置驱动，而非 token 自身的语义决定。

〓表2. 模型初始位置触发 Spike 的现象具有极高的普遍性

〓图1. SiLU 门控在升压与回落块中表现出近似恒等的输入输出特征

在近似恒等的条件下，前馈网络输出的第个坐标可以被严密地近似为二次型：

其中，决定放大倍数的矩阵定义为：

进一步的谱分析揭示了单一特征值主导现象。对于那些出现 Spike 的通道，其二次型矩阵的特征值谱被单一的主导特征值完全控制。

〓图2. Spike 通道的特征值谱存在单一的超大主特征值

〓图3. 大值激活幅度随模型深度的“上升-平台-下降”全生命周期轨迹

从 Spike 到 Sink：归一化与几何子空间的博弈

这种稀疏化抹平了 token 之间原本的个性差异，使其沦为近乎恒定的架构符号。

当这个稀疏向量通过注意力键权重矩阵投影后，Sink Token 的键（Key）向量被高度局限于一个极低维的子空间内：

〓表3. 注意力头部维度是决定 Sink 形成的主导架构因素

通过 t-SNE 可视化可以清晰看到这场几何博弈：在 Sink Head 中，模型的查询子空间主动靠近固定的 Sink 键，从而拉开巨大的 Logit 差距，自然而然地吸走了多余的注意力权重。

〓图4. Sink Head 中的查询向量子空间在几何距离上显著贴近 Sink 键向量

〓表4. 改变归一化策略能在保留 Sink 的同时彻底抑制 Spike

探寻 Sink 的真实本源

门控注意力的消融实验，彻底揭示了模型维持 Attention Sink 现象的真实动机。当我们为模型引入基于当前隐藏表示的动态条件门控时，Sink 现象几乎完全消失（如 Per Channel 模式下低至 4.5%）。

〓表5. 引入条件门控消除了大模型维持 Sink 现象的结构性需求

〓表6. 剔除短上下文训练数据导致 Sink 比例的大幅坍塌

这最终证实，Attention Sink 是模型在使用全局注意力机制处理短距离依赖关系时，产生的一种必然归纳偏置。

结语

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴