大模型也有“多动症”！词表一长，注意力就崩了|上下文|信号|多动症|大模型|斯特鲁普|模态|注意力不足过动症|词表

2017 年，一篇名为《注意力机制就是一切》（Attention Is All You Need）的论文，开启了 Transformer 在深度学习领域的统治时代。

但近日，纽约市立大学皇后学院心理学系的研究人员运用一项心理学领域的经典注意力测试证实，尽管大模型已经能记忆超长上下文，也能在基准测试中完美完成“海底捞针”的任务，但其注意力机制，或许依旧不够理想。

Stroop 任务与人类注意力机制的三层架构

下面这张图，你可以说出每个单词是什么颜色吗？可能需要你耗费更长的时间来辨识，但基本都能答对。

这项测试被称为“斯特鲁普任务（Stroop test）”，其历史可以追溯到 1935 年。当时，心理学家约翰·里德利·斯特鲁普首次通过实验展现了一种奇特的干扰现象：当向被试展示用不同颜色墨水书写的颜色单词时，例如用蓝色墨水写出的“红”字，人们在试图说出墨水颜色时，反应速度会明显变慢，且更易出错。这一现象也被命名为斯特鲁普效应（Stroop effect）。

在认知心理学中，它揭示了人类大脑中两种不同信息加工路径的竞争。对于受过教育的个体而言，“读字”是一种高度自动化的本能反应，“辨识并命名颜色”则是一项需要消耗更多认知资源的非自动任务。为了在干扰信息中准确输出颜色，大脑必须调动一个由前扣带回和背外侧前额叶等区域组成的“执行控制网络”，抑制读字本能，解决这一认知冲突。

根据注意力网络理论（ANT），人类注意力由警觉、定向和执行控制三个功能不同的网络协同构成。其中，警觉功能维持清醒和准备状态；定向网络负责将注意力资源分配到相关刺激上；执行控制网络负责在冲突信息面前抑制优势反应、维持任务目标。Transformer 的自注意力机制会根据相关性动态分配权重，它在功能上更接近定向系统。

大模型知道许多道理，依旧答不好这道题

为探究大语言模型的“机器注意力”究竟是否具备执行控制系统解决冲突、抑制干扰、规划决策的能力，研究人员选取了 GPT-4o 和 Claude 3.5 Sonnet 等多模态大模型作为测试对象，为其设计了词义与颜色一致（Congruent）、不一致（Incongruent）、混合（一致与不一致各占 50%，Combined）、中性（单词与颜色无关，Neutral）、非词控制条件（长度不同、颜色不同的无意义字符串，Nonword）等不同冲突程度的词表。

实验最核心的变量是词表长度，研究团队将颜色词表的长度从五个词逐步增加到四十个词。这种设计能够精准测试模型在面对持续认知干扰时，是否能像生物脑一样，维持稳定的控制力和自适应调节能力。

数据显示，在仅有五个词的不一致短序列测试中，大模型表现出良好的冲突解决能力，GPT-4o 的准确率高达 91%。然而，随着词表序列长度的增加，模型的准确率呈现出断崖式下跌。

增加到十个词时，GPT-4o 的准确率就降至 57%，而当长度延伸到四十个词时，其在不一致条件下的准确率跌至 15%。Claude 3.5 Sonnet 在二十个词内虽然表现出稍好的稳定性，但面对四十个词的挑战时，准确率也迅速滑落至 24%。在包含一致与不一致刺激的混合条件下，模型在冲突项上的正确率已经接近零。

为排除模型由于视觉编码能力不足或上下文窗口超载而失败的可能，研究团队还设计了一组仅需读词的任务。结果是，无论序列长短，模型的准确率都稳定高于 90%。这表明，大模型对长文本的记忆和处理能力没有问题。

而在一致条件和非词控制条件下，模型在所有序列长度中的颜色识别准确率同样维持在较高水平，证明视觉编码器提取颜色的能力并无缺陷，其性能崩溃特异性地发生在两路信息冲突、需要系统做出取舍的场景中。

至于前文提及的“中性条件”（用彩色墨水写非颜色词），随着列表变长，模型在此条件下的颜色命名甚至也出现了大幅下降。这更有力地表明，随着信息流的持续注入，大模型在“目标维持”上已经出现系统性失效。

具体而言，在多模态大模型中，Stroop 刺激图片首先经过视觉编码器被转化为视觉 token，接着与语言模型的文本 token 一起，在同一注意力层中联合处理。语言模型的预训练过程包含海量文本，具有极其稠密的词汇表征；但颜色信息与之不同，它需要大模型从视觉编码器跨模态传递、经过投影映射后才能进入表征空间，二者信号强度并不对等。

词表较短时，颜色信号尚能分配到足够的注意力资源；但当序列变长，注意力的竞争开始变得激烈，颜色信号进一步稀释，最终甚至被词义信号彻底淹没。