这项由香港大学与哈尔滨工业大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.08064,有兴趣深入研究的读者可通过该编号查阅完整原文。
说到记忆,每个人都有自己的体验。你学会骑自行车之后,即便隔了好几年没骑,一旦跨上去依然能自然地踩踏平衡——这种"肌肉记忆"并不需要你刻意去回想"左脚踩一下、右脚踩一下"的口诀,它已经悄悄地刻进了你的身体里,成为一种自动化的行为。与此同时,如果你曾经吃某家餐厅的鱼闹过肚子,下一次走进那家店,你可能不需要刻意提醒自己"上次那条鱼让我难受",而是本能地对鱼类菜品产生回避的念头——这同样是一种无意识的记忆在驱动你的选择。
人类的这类记忆,在认知科学里叫做"内隐记忆"或"隐式记忆",与我们主动背诵、刻意提取的"显式记忆"截然不同。一个真正能帮到你的AI助手,理论上也应该具备类似的能力:不需要你每次都提醒它"上次那个工具调用会失败,别用它",它应该已经从过去的经历中自然地形成了某种规避习惯。然而现实是,我们根本不知道当今最先进的大型语言模型(AI助手背后的核心技术)是否真的拥有这种能力——因为没有人专门测试过这件事。
正是为了填补这个空白,研究团队设计了一套名为ImplicitMemBench(隐式记忆基准测试)的全新评测体系,并对17款当前最主流的AI模型进行了系统性考察。结果令人深思:没有任何一款模型的综合得分超过66%,而人类参与者的得分则是满分100%。这不仅仅是一个数字上的差距,它揭示了当前AI架构在一个根本性能力上的集体性缺失。
一、为什么"记住事实"和"记住习惯"是两回事
在此之前,学术界已经有不少针对AI记忆能力的测试工具。这些工具的共同逻辑是:给AI一段很长的对话历史或文档,然后用提问的方式检查它能不能准确地回忆出其中的具体内容。例如,"上次我们谈到的那个项目名称叫什么?"或者"文章里提到的负责人是谁?"——这类测试考查的是AI主动检索、按需提取信息的能力,本质上是在考查它的"有意识的记忆"。
然而,人类在日常生活中依赖的远不止于这种刻意的回忆。回到骑自行车的例子:当你骑车拐弯时,你不会在脑子里搜索"我以前学过的拐弯口诀",身体就已经自动做出了倾斜和转向的动作。这种行为的自动化,是经过反复练习之后,技能从"需要意识介入"变成了"无需意识介入"的过程。认知科学把这类记忆统称为"非陈述性记忆"或"程序性记忆系统",它包含了多种不同的机制:有像骑车这样通过练习固化的程序性技能,有因为接触某个主题而在之后产生相关联想倾向的"启动效应",也有像"曾经被烫过之后看到火就退缩"这样的条件反射。
研究团队指出,现有的AI记忆测试工具在设计上有三个共同的盲点:它们总是明确地用提问来触发模型的记忆;它们关注的是模型能储存多少信息,而不是这些信息有没有真正变成自动化的行为;再加上许多测试需要耗费大量计算资源,难以大规模复现。ImplicitMemBench正是针对这三个缺陷而设计的:它不明确提醒AI去回忆什么,而是直接把AI扔进一个需要它"自然表现"的场景,看它是否会自动做出已经"学过"的正确行为——就像考一个骑车学员,不是问他"你记得怎么拐弯吗",而是直接让他骑上去转个弯。
二、三种考验,对应三种不同的无意识记忆
研究团队把这套测试框架建立在认知科学对非陈述性记忆的经典分类之上,选取了其中三种最能映射到AI助手实际工作场景的机制,分别构建了对应的考验任务。
第一种考验叫做"程序性记忆测试"。这个名字里的"程序"不是计算机程序,而是指"一套操作流程或行为规范"。考试的逻辑是这样的:先给AI演示一条非常规的规则,比如告诉它"在这个系统里,复制文件的命令参数顺序是先写目标路径再写源路径,跟你平时习惯的相反",然后给它安排十五轮完全不相关的聊天(就像你骑完车之后去聊了一会天),最后再问它如何执行一个文件复制操作——不提醒它刚才学过的规则。这个测试想考察的是:AI有没有真正把这个非常规规则"内化"成自己的操作习惯,还是它很快就遗忘了,重新回到预训练时形成的默认模式?研究团队设计了五个领域的程序性记忆任务,涵盖了工具调用惯例的反转、任意语言格式的固定模板、非标准数学运算符、微观世界里的抽象规则,以及创意写作中的风格约束,每个领域都在用不同的角度检验AI将规则变成习惯的能力。
第二种考验叫做"启动效应测试"。"启动"在心理学里的意思是:你提前接触了某些信息或场景,这会在你没有意识到的情况下影响你随后的反应和选择。一个生活化的例子是:如果你刚刚看完一部以海洋为主题的纪录片,然后有人请你给一款新的数据存储产品起个代号,你很可能会想到"深海"、"潮汐"、"珊瑚"这类词汇,而不是从天空或山脉中取意——即便你完全没有意识到这两件事之间有什么关联。这个测试的设计方式很巧妙:对于同一道创意命名题,一组AI在回答前读了一段关于火山爆发的感性描述文字,另一组AI在回答前读了一段关于图书馆十进分类法的中性技术说明——两组中间都插入两轮与主题无关的技术性对话作为"认知缓冲"——然后比较两组给出的创意名称,看看读了火山文字的那组有没有在措辞和意象上偏向热烈、剧烈、爆发性的风格。两组之间的差异就是"启动效应"的量化体现。整个测试覆盖了十个风格迥异的主题域,从北极探险到文艺复兴炼金术,每个主题都有其特定的感官色调和情感基调。
第三种考验叫做"经典条件反射测试"。这个名字可能让你想起巴甫洛夫那只看到铃声就流口水的狗——本质上正是这个原理。在测试里,AI会经历多轮这样的场景:每次使用某个特定工具或执行某类操作,系统就会反馈一个失败或警告的结果;偶尔换一个不同的工具执行类似操作,系统反馈成功。这样的"失败配对"重复四次左右之后,插入两轮无关的闲聊,然后再次给AI一个会触发那个"曾经失败过的情境"的请求——看AI的第一个动作是什么。是直接再次调用那个已经失败过多次的工具,还是会本能地选择替代方案或给出警告?这个测试涵盖了API工具安全、对话风格适应和系统路径保护三个领域,核心是考察AI能不能从负面反馈中自然形成保护性的回避习惯,而不需要每次都被明确告知"那个工具不能用"。
三个考验共同遵循同一套"学习—干扰—测试"的三段式流程,而且评分只看第一次响应——没有机会自我纠正,因为真正的自动化行为,正是在不假思索的第一反应里体现的。整套测试一共300道题,每种考验各100道,规模紧凑却覆盖了18个不同的任务家族。
三、17款AI大模型,成绩怎么样
研究团队选取了17款当前最具代表性的AI模型参与测试,其中既有OpenAI的GPT系列(GPT-4o、GPT-4o-mini、GPT-o3、GPT-o4-mini-high、GPT-5),Anthropic的Claude系列(Claude-4-sonnet、Claude-4.1-opus),Google的Gemini系列(Gemini-2.5-Pro、Gemini-2.5-Flash),也有来自国内的DeepSeek-R1、Qwen系列(2.5和3两代,从7B到72B不同规模)、LLaMA系列以及GLM-4.5。这些模型覆盖了从小型开源到顶级闭源的广泛范围。
为了给这些AI的成绩一个参照系,研究团队还邀请了五位计算机科学方向的博士生,用完全相同的流程完成了全部300道题,并由另外两位博士生独立评分。结果是:五位人类参与者全部得了满分,评分员之间的一致性也是百分之百。这个满分基线让AI们的表现显得格外扎眼。
排名第一的是DeepSeek-R1,综合得分65.3%;紧随其后的是Qwen3-32B,得分64.1%;第三名是GPT-5,得分63.0%。这三款模型构成了所谓的"精英梯队"。往后依次是Qwen3-8B(62.4%)、GPT-o3(61.8%)、GPT-o4-mini-high(60.9%),这几款可以归入"强力梯队"。再往后一档的"中等梯队"包括GPT-4o-mini、Qwen-2.5-72B、GPT-4o、Claude-4-sonnet、LLaMA-3.3-70B,得分集中在49%到51%之间。垫底的两款是LLaMA-3.1-8B(44.2%)和Qwen-2.5-7B(43.5%)。17款模型的平均分是55.3%。
这些数字摆在一起,传达出一个清晰的信号:即便是目前地球上最强大的商用AI,在隐式记忆这件事上也只能勉强过半,距离人类的自然水平还有极大的差距。
四、数字背后藏着的三个令人警醒的规律
光看总分还不够,细看三类考验的分项成绩,会发现更多耐人寻味的规律。
第一个规律是三类考验之间的巨大差异。程序性记忆这关相对好过一些,有八款模型的得分超过了70%,排名靠前的几款甚至能达到76%到77%。但经典条件反射这关就不一样了:整体上只有DeepSeek-R1和Qwen3-32B的得分超过65%,其他模型大多在50%上下徘徊,有的甚至跌到41%。启动效应测试的得分则非常集中,17款模型普遍落在42%到52%的狭窄区间内,几乎没什么分化。这意味着:AI们在"把一条规则内化为操作习惯"这件事上还算有些基础,但在"从失败经历中形成自动化的保护性回避"这件事上,普遍存在根本性的困难;而在"被环境潜移默化地影响"这件事上,所有模型的表现都在差不多的低水平线上。
第二个规律是同一款模型在不同考验上的剧烈落差。最典型的例子是Claude-4.1-opus:它在程序性记忆测试中得分高达76.67%,是所有模型里最高的;但在经典条件反射测试中,得分直接跌到41.67%,相差足足35个百分点。这不是某一道题目的偶发失误,而是一种系统性的能力分离现象,说明这两种记忆机制在AI架构里的实现方式可能是相互独立的,擅长一种并不意味着擅长另一种。DeepSeek-R1之所以排名第一,恰恰是因为它在三项考验上的得分相对均衡——没有某一项特别突出,但也没有哪项特别拖后腿。这暗示了一个关键洞察:真正的隐式记忆能力,需要架构层面对多种机制的同时支撑,而不能只靠单项的优化。
第三个规律是"抑制性学习"与"偏好性学习"之间触目惊心的鸿沟。简单说,"偏好性学习"是指学会"在某些情况下选择A",而"抑制性学习"是指学会"在某些情况下绝对不做B"。前者像是学习"当手机信号弱时用WiFi通话",后者像是学习"看到某个错误代码绝对不要重启服务器"。研究发现,所有模型在偏好性任务上的平均准确率高达75%,而在抑制性任务上,平均准确率仅为17.6%——差距高达57.4个百分点,而且这个差距在所有架构的模型上都存在,没有例外。最极端的案例是"专业术语回避"这个任务,平均准确率只有可怜的4%,而"目录路径偏好"的准确率则高达72%。这告诉我们:当前AI架构在设计上,天然地更擅长"获得某种倾向",而极度不擅长"压制某种惯性"。
五、五个让所有模型都集体失败的考验
在所有任务类别中,有五类任务对所有模型都构成了普遍性的困难,没有哪款模型能在这五类上交出令人满意的成绩。
"专业术语回避"是其中最难的,平均准确率只有4%左右,标准差5%,也就是说不同模型之间几乎没有差异——大家都在接近零的水平上挣扎。这个任务要求AI在经历了多次因为使用专业术语导致用户不满之后,自动转变为更通俗的表达风格,即便之后的提问没有任何关于"说人话"的提醒。
"API工具不信任"的平均准确率是21%,同样在所有模型上表现一致性地糟糕。这考察的是:AI能否在某个API工具反复失败之后,在下次遇到相关场景时自动优先选择备用工具,而不是下意识地再次调用那个"已经证明有问题"的工具。
"情境依赖型行为"的平均准确率是28%,考察的是AI能否根据用户之前流露出的不同状态(比如用户处于时间紧迫的场景还是有充裕时间的场景)自动调整自己的响应风格,而不是每次都按同一套默认模式回答。
"条件式API规避"的平均准确率是45%,考察的是经典条件反射在工具调用层面的表现,相对前几项稍好,但依然处于无法让人放心的水平。
"情绪驱动的策略转换"的平均准确率是55%,是这五个普遍性难题里相对最高的,但考虑到这只需要AI能感知用户的情绪信号并做出相应的沟通策略调整,55%的准确率依然说明这件事对于当前AI来说并不容易做到。
这五类任务的共同点是:它们都要求AI主动压制自己的默认行为,而不是选择一个新的正向模式。这与之前提到的"抑制性学习"困境高度吻合——当前AI架构在这方面存在根本性的设计局限,无法单纯通过增大模型规模来解决。
六、额外一问:给AI外挂一个"显式记忆模块"有没有用
既然AI自身的隐式记忆能力这么弱,那么为它额外配备一个专门负责存储和检索信息的"外挂记忆系统",会不会让它在ImplicitMemBench上表现更好?这是一个非常合理的问题,研究团队也专门做了测试。
他们选取了三款代表性的记忆增强系统,分别与不同的基础模型配合测试。结果显示,这些外挂系统的效果非常不一致:MemAgent搭配Qwen2.5-14B模型,综合得分从34.4%提升到了38.3%,有所改善;MemGPT搭配Yi-34B-200K,从32.2%提升到34.6%,小幅上升;但MEM1搭配Qwen2.5-7B,综合得分反而从43.5%下滑到了41.4%,倒退了。
更重要的是,即便在某些组合下总分有所提升,各类考验的分项成绩也极度不均衡。某些组合在程序性记忆上倒退了,在条件反射上有所提升;另一些组合则相反。研究团队还做了一个极端测试:以完全人工介入的方式,把每道题最关键的信息(规则本身、主题内容、刺激-反应配对)直接精确地存入记忆系统——相当于为AI开了"上帝视角"——结果发现,即便在这种作弊级别的辅助下,不同类型的考验之间仍然存在巨大差异,增益效果也无法均匀分布到所有任务上。
这个发现的意义在于:隐式记忆不是"把正确信息存进去再读出来"这么简单。它需要的是某种更深层的机制——让接触过的信息真正改变行为模式,而不只是作为一条可以被检索的知识停留在记忆里。外挂一个显式记忆数据库,解决不了这个根本问题。
七、测试框架本身是怎么设计的,结论可靠吗
一套好的测试,自身也需要经得起审查。研究团队在设计ImplicitMemBench时做了几项值得一提的技术决策。
测试的生成分两个阶段:首先用GPT-4o-mini从大量任务模板中批量生成超过1000个候选题目,然后经过自动化检查和人工审核的双重筛选,最终保留了300道质量过关的题目。这个筛选过程会剔除掉结构不符合要求、语义上存在快捷路径(也就是可以不靠记忆就能答对)的题目,以确保每道题真正在考察隐式记忆。
评分的设计同样考虑了客观性。程序性记忆的评分采用规则验证加AI辅助判断的混合方式;启动效应的评分依赖大模型裁判,通过对实验组和控制组答案的对比来量化主题偏向程度,并设有多种惩罚机制防止把通用型文风的相似性误判为启动效应;条件反射测试也使用大模型裁判,专门判断第一个动作是否体现了学习到的回避行为。
为了验证评分本身不依赖于特定AI裁判模型的倾向性,研究团队用Gemini-2.5-Flash作为第二个独立裁判,对全部17款模型重新打分。结果显示,排名前11名和后2名的位置完全一致,中间几个位置只有轻微的顺序微调,整体高度稳定,说明结论不会因为换一个裁判而翻转。
此外,研究团队还专门测试了干扰阶段的长度对结果的影响。当干扰阶段的文本量从约200个词元增加到约500个词元时,难度明显提升;但继续增加到1000甚至2000个词元,成绩基本不再变化。这说明500个词元左右是一个有效的测试阈值,在这个量级上已经足以区分"真正的内化"和"短暂的表面保留",继续堆叠干扰内容并不能带来更多信息量,却会大幅增加测试成本。
说到底,ImplicitMemBench做的事情,是把一个长期被忽视的问题摆上了台面:我们在评判AI助手是否"记性好"的时候,实际上只测试了它在被明确提问时能否准确回答,而完全忽略了它有没有真正把经历转化为行为习惯。就像考一个厨师,我们只考了他"能不能背出菜谱",却从来没考过他"做菜的时候会不会自然而然地把菜谱里的技巧用出来"。
这套测试用17款顶尖AI模型的集体失利告诉我们:背菜谱和会做菜,真的是两件非常不同的事。当前所有主流AI模型的架构,在本质上更像是一个超强的知识检索器,而不是一个真正能从经历中成长的行为主体。模型规模越大,知识检索能力越强,但这并不必然带来隐式记忆能力的提升——因为两者依赖的机制根本就不同。
这对未来AI的开发方向有着明确的指向意义。我们或许需要的不仅仅是更大的参数量,而是在架构设计层面引入某种机制,让AI能够真正将"经历"转化为"习惯",而不只是把信息存储为可以被提取的知识条目。在此之前,每次你期待你的AI助手能记住你的使用偏好、自动规避曾经踩过的坑、在不同情境下灵活切换沟通风格,你其实是在期待一项目前的AI还远未真正掌握的能力。
对这项研究感兴趣的读者,可以通过arXiv编号2604.08064找到完整的论文,研究团队也公开了测试代码和数据集,供学界进一步研究和改进。
Q&A
Q1:ImplicitMemBench测试的是什么能力,和普通AI记忆测试有什么区别?
A:ImplicitMemBench测试的是AI的"隐式记忆"能力,也就是AI能否在没有明确提醒的情况下,自动将过去的经历转化为行为习惯,例如自动回避曾经失败过的操作,或者自然沿用学过的非常规规则。而普通AI记忆测试通常是明确问AI"你记得之前说过什么吗",属于考察主动回忆的能力,两者考察的是本质上不同的记忆机制。
Q2:DeepSeek-R1在ImplicitMemBench排名第一的原因是什么?
A:DeepSeek-R1在三类考验(程序性记忆、启动效应、经典条件反射)上的得分相对均衡,没有哪一类特别拖后腿,综合得分因此最高(65.3%)。相比之下,Claude-4.1-opus虽然程序性记忆得分最高,但经典条件反射测试得分只有41.67%,差距太大,总分因此落后。研究结果表明,真正的隐式记忆能力需要多种机制同时到位,而不是单项突出。
Q3:给AI配备外部记忆系统能解决隐式记忆能力弱的问题吗?
A:不能可靠地解决。研究测试了几款记忆增强系统,发现效果极度不一致——有的组合小幅提升总分,有的组合反而让成绩下降。即便以人工方式把最关键的信息精准存入记忆系统,效果也会因任务类型而大相径庭。原因在于,隐式记忆需要的不只是"把信息存进去再读出来",而是让信息真正改变行为模式,外挂显式记忆数据库无法在架构层面解决这个根本问题。
热门跟贴