2017 年,一篇名为《注意力机制就是一切》(Attention Is All You Need)的论文,开启了 Transformer 在深度学习领域的统治时代。
但近日,纽约市立大学皇后学院心理学系的研究人员运用一项心理学领域的经典注意力测试证实,尽管大模型已经能记忆超长上下文,也能在基准测试中完美完成“海底捞针”的任务,但其注意力机制,或许依旧不够理想。
Stroop 任务与人类注意力机制的三层架构
下面这张图,你可以说出每个单词是什么颜色吗?可能需要你耗费更长的时间来辨识,但基本都能答对。
这项测试被称为“斯特鲁普任务(Stroop test)”,其历史可以追溯到 1935 年。当时,心理学家约翰·里德利·斯特鲁普首次通过实验展现了一种奇特的干扰现象:当向被试展示用不同颜色墨水书写的颜色单词时,例如用蓝色墨水写出的“红”字,人们在试图说出墨水颜色时,反应速度会明显变慢,且更易出错。这一现象也被命名为斯特鲁普效应(Stroop effect)。
在认知心理学中,它揭示了人类大脑中两种不同信息加工路径的竞争。对于受过教育的个体而言,“读字”是一种高度自动化的本能反应,“辨识并命名颜色”则是一项需要消耗更多认知资源的非自动任务。为了在干扰信息中准确输出颜色,大脑必须调动一个由前扣带回和背外侧前额叶等区域组成的“执行控制网络”,抑制读字本能,解决这一认知冲突。
根据注意力网络理论(ANT),人类注意力由警觉、定向和执行控制三个功能不同的网络协同构成。其中,警觉功能维持清醒和准备状态;定向网络负责将注意力资源分配到相关刺激上;执行控制网络负责在冲突信息面前抑制优势反应、维持任务目标。Transformer 的自注意力机制会根据相关性动态分配权重,它在功能上更接近定向系统。
大模型知道许多道理,依旧答不好这道题
为探究大语言模型的“机器注意力”究竟是否具备执行控制系统解决冲突、抑制干扰、规划决策的能力,研究人员选取了 GPT-4o 和 Claude 3.5 Sonnet 等多模态大模型作为测试对象,为其设计了词义与颜色一致(Congruent)、不一致(Incongruent)、混合(一致与不一致各占 50%,Combined)、中性(单词与颜色无关,Neutral)、非词控制条件(长度不同、颜色不同的无意义字符串,Nonword)等不同冲突程度的词表。
实验最核心的变量是词表长度,研究团队将颜色词表的长度从五个词逐步增加到四十个词。这种设计能够精准测试模型在面对持续认知干扰时,是否能像生物脑一样,维持稳定的控制力和自适应调节能力。
数据显示,在仅有五个词的不一致短序列测试中,大模型表现出良好的冲突解决能力,GPT-4o 的准确率高达 91%。然而,随着词表序列长度的增加,模型的准确率呈现出断崖式下跌。
增加到十个词时,GPT-4o 的准确率就降至 57%,而当长度延伸到四十个词时,其在不一致条件下的准确率跌至 15%。Claude 3.5 Sonnet 在二十个词内虽然表现出稍好的稳定性,但面对四十个词的挑战时,准确率也迅速滑落至 24%。在包含一致与不一致刺激的混合条件下,模型在冲突项上的正确率已经接近零。
为排除模型由于视觉编码能力不足或上下文窗口超载而失败的可能,研究团队还设计了一组仅需读词的任务。结果是,无论序列长短,模型的准确率都稳定高于 90%。这表明,大模型对长文本的记忆和处理能力没有问题。
而在一致条件和非词控制条件下,模型在所有序列长度中的颜色识别准确率同样维持在较高水平,证明视觉编码器提取颜色的能力并无缺陷,其性能崩溃特异性地发生在两路信息冲突、需要系统做出取舍的场景中。
至于前文提及的“中性条件”(用彩色墨水写非颜色词),随着列表变长,模型在此条件下的颜色命名甚至也出现了大幅下降。这更有力地表明,随着信息流的持续注入,大模型在“目标维持”上已经出现系统性失效。
具体而言,在多模态大模型中,Stroop 刺激图片首先经过视觉编码器被转化为视觉 token,接着与语言模型的文本 token 一起,在同一注意力层中联合处理。语言模型的预训练过程包含海量文本,具有极其稠密的词汇表征;但颜色信息与之不同,它需要大模型从视觉编码器跨模态传递、经过投影映射后才能进入表征空间,二者信号强度并不对等。
词表较短时,颜色信号尚能分配到足够的注意力资源;但当序列变长,注意力的竞争开始变得激烈,颜色信号进一步稀释,最终甚至被词义信号彻底淹没。
更先进的模型表现如何?为验证这些发现的普遍性,研究团队对更新一代的 GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 模型进行了测试。结果表明,尽管部分模型的整体表现有所提升,执行控制缺陷依然存在。
此前针对人类开展的试验中,如果他们刚完成一个不一致试次,在下一个不一致试次中的表现通常会改善。原因在于,大脑的冲突监测系统检测到干扰,上调了控制力度。但在大模型中,这种适应性调整的模式均未出现。
不仅如此,实验还发现了一个显著的解离现象。在无提示的情况下,模型能准确识别出该任务是斯特鲁普测试,甚至会解读出这项测试的规则,但等到实际执行时,任务表现依旧没有提升。这表明,对任务模式的语义理解并不等于能够有效执行认知抑制。
实验也曾尝试让模型打开“Thinking”(思维链)答题,此时,部分模型会编写并执行代码完成任务。这间接证实,模型“发现”自己的注意力机制可能不足以应对冲突,会选择绕道使用外部工具。
基于这些结论,研究团队深入探讨了当前 Transformer 架构的物理局限。他们指出,自注意力机制在本质上是一种基于统计概率的前馈加权系统。这种机制能根据上下文动态调整权重,但缺乏人类大脑中根据实时任务反馈、自上而下进行控制力增强的动态调节系统。
据此,研究者提醒,单凭堆叠数据和参数,或许无法从根本上赋予模型在长程复杂冲突任务中的稳定性。
长期以来,人工智能的性能评估高度依赖静态的知识和推理基准测试。但在此之外,经典的认知心理学实验也可以作为极佳的诊断工具,帮我们探清模型在动态决策和认知负荷下的行为边界。
事实上,学界已经开始探索这一方向,尝试借鉴生物注意力的架构改进大模型。例如,选择性自注意力机制可动态调制注意力温度,以此模拟生物式的选择性聚焦;差分 Transformer 则通过差分运算,抑制对无关上下文的过度关注。
为迈向真正的通用人工智能,未来的架构设计或许需要打破单一前馈注意力的限制,尝试引入类似生物体脑前额叶执行控制网络的主动门控机制。未来,AI 不应只知道该关注什么,更应在干扰中保持对目标的定力。
参考内容:
https://academic.oup.com/pnasnexus/article/5/6/pgag149/8698838
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴