这项由复旦大学、浙江大学、上海人工智能实验室及香港中文大学联合开展的研究,以预印本形式于2026年6月17日发布,论文编号为arXiv:2606.19338。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
**一、你的AI助手其实患有"短期失忆症"**
考虑这样一个场景:你正在跟一位助理一起翻找老照片。你刚刚翻出了一张奶奶年轻时的照片,放在桌子左边,然后继续翻其他的。五分钟后,你想把那张照片放进相册,但助理已经完全忘记了它放在哪里。你只好再找一遍。
这个场景听起来很荒唐,但这恰恰是当前最先进的AI助手在某些任务中的真实表现。研究团队设计了一套叫做"RNG-Bench"(可重建非马尔可夫游戏基准)的测试系统,专门揭示了这一被大多数人忽视的致命弱点。
整个研究的核心问题是:当AI在多步骤交互中需要依靠"过去看到过但现在已不可见"的信息来做决定时,它能做好吗?答案令人警醒——不能,而且差得相当远。
**二、"马尔可夫"和"非马尔可夫":一个关键的哲学区别**
要理解这项研究,必须先弄清楚一个核心概念。研究团队用下棋来做类比,非常贴切。
下围棋的时候,棋盘上的当前局面就包含了你做出下一步决策所需要的全部信息。你不需要记住三十步前对手走了哪一步,因为那些影响都已经体现在当前的棋盘上了。这种"当前状态足以决定最优行动"的游戏,专业术语叫做"马尔可夫"游戏。大多数AI擅长的棋类游戏,比如围棋、象棋、五子棋,都属于这一类。
然而生活中有大量的情况并不是这样的。回到翻照片的例子:当你翻开第三张照片时,你眼前看到的画面(第三张照片)根本无法告诉你之前看过哪些照片放在了哪里。这种"仅凭当前状态无法做出最优决策,必须依赖历史记忆"的情况,就叫做"非马尔可夫"。
研究团队把这个区别拎得很清楚:在非马尔可夫环境里,AI面临的挑战分为两步——先要从历史信息中重建出一个"内部信念地图",然后再依据这张地图做出行动。任何一步出错,后面的所有决定都可能跟着出错,因为每一次错误的行动都会改变接下来能看到的画面,形成连锁反应。
**三、两个精心设计的考试:翻牌记忆和3D迷宫**
研究团队设计了两款游戏来测试AI的这种能力,每款游戏考察的"记忆"类型略有不同,就像用不同科目的试卷来全面考察一个学生。
第一款游戏是"翻牌配对"。规则和儿时玩过的记忆翻牌游戏完全一样:一块网格板上放着成对的牌,全部背面朝上。每次翻开两张,如果图案相同就移走得分,如果不同就翻回去。关键在于,每张牌只有被翻到的那一刻才会露出图案,之后就又变成了背面。要想高效通关,玩家必须记住每次翻牌时看到的图案和位置,以便下次精准找到配对。
这个游戏测试的是"静态、离散的隐藏状态"——牌的位置和图案是固定的,只需要把看到过的信息牢牢记住,在正确的时机取用就行。
第二款游戏是"3D迷宫导航"。AI被扔进一个程序生成的三维迷宫,只能看到第一人称视角(就像站在迷宫里往前看),没有地图,目标是从左上角走到右下角。每走一步,之前的走廊就从视野里消失了。要想不迷路、不走回头路、最终找到出口,AI必须一边走一边在脑海中拼出整个迷宫的地图,同时追踪自己当前的位置和朝向。
这个游戏测试的是"动态、空间性的隐藏状态"——随着每一步行走,需要记住和更新的信息量在持续增长,而且稍有偏差整个空间感就会崩塌。
两款游戏都在一个统一的测试框架下运行,沿着三个维度系统地调整难度:网格或迷宫的尺寸(决定需要记住的信息量)、视觉图案的类型(决定认出图案的难度)、以及观察方式(文字描述还是真实图像)。最难的配置需要AI处理大约12.8万个文字符号和350张图片,相当于让它同时看一部长篇小说并记住里面每一个细节。
**四、精英AI们的表现:差距出乎意料**
测试结果让人大开眼界,因为各款顶尖AI的表现不仅整体不理想,而且在两款游戏之间的排名还出现了明显翻转。
在翻牌配对游戏的10×10棋盘(共50对牌)、图像模式测试中,表现最好的是GPT-5.4,它配对成功了62.3%的牌组;Gemini-3.1-Pro以50%紧随其后;Qwen3.5-397B(一款参数量达3970亿的超大型模型)只成功了25.3%。作为参照,一个按最优策略玩牌的理想玩家,平均每配对一对牌只需要3.24次翻牌,而最强的GPT-5.4平均需要8.01次——效率差了将近三倍。
然而换到3D迷宫(13×13规格,最优路径平均60步),排名竟然发生了戏剧性的逆转。Gemini-3.1-Pro以50%的成功率和49.7%的综合评分夺冠;GPT-5.4的成功率跌至20%;Qwen3.5-397B则以0%的成功率垫底,也就是说,它在所有测试回合里一次都没能走出迷宫。
这个排名的翻转本身就说明了一个重要问题:翻牌记忆考验的是"静态的、分类式的记忆",而迷宫导航考验的是"动态的、空间性的心智地图构建"。这是两种截然不同的认知能力,不同的AI系统对二者的掌握程度并不一致。
研究团队还引入了一种更刺激的"决斗模式"——让两个AI同台竞技翻同一块牌板。关键在于,对手翻牌时露出的图案,自己也能看到并加以利用。这相当于考验AI能否将"对手暴露的信息"也纳入自己的记忆体系中。在16场循环赛中,Gemini-3.1-Pro场场获胜,赢得了全部16局,Elo评分高达1803分,而Seed-2.0-Lite只赢了16%的比赛,评分仅1306分。
**五、记忆缺口:一把拆解失败原因的解剖刀**
仅仅知道AI表现差还不够,研究团队更想知道:AI的失败究竟是因为"忘了过去看到的东西",还是因为"即便记住了也不知道该怎么用"?
为了分开这两种失败,他们设计了一个叫做"记忆缺口"(Memory Gap)的指标。具体做法是:在正常测试之外,再做一组"开卷考试"——每一步都把隐藏信息(所有牌的位置、迷宫的全貌)直接喂给AI,看它在信息完整的情况下能做到多好。两种情况下得分之间的差距,就是记忆缺口,它直接告诉我们"忘记"这件事本身造成了多大的损失。
测试结果显示,记忆缺口相当惊人。以Qwen3.5-397B为例,在8×10翻牌游戏中,正常情况下它的得分是38.3%;但当每一步都告诉它所有牌在哪里时,得分飙升到78.7%。记忆缺口高达51.3%,也就是说,超过一半的失分都是纯粹因为"忘记了",而不是"不会下棋"。Kimi-K2.5的情况类似,记忆缺口为46.1%。
在3D迷宫中,提供小地图后的改善幅度虽然也存在(Qwen的综合评分从23.8%升至40.2%),但相对于翻牌游戏,改善比例更小(记忆缺口约为40.8%)。这说明迷宫除了记忆问题之外,还存在其他的困难——即便拿到了地图,AI还需要具备空间规划能力,才能真正找到出路。
**六、越难越崩溃:规模效应的残酷验证**
如果说上面的结果还不够令人印象深刻,那么这组实验数据应该能说明问题。
研究团队系统地把翻牌棋盘从4×4扩大到12×12,同时把迷宫从5×5放大到15×15,观察AI的表现随难度增加如何变化。在4×4的小棋盘(只有8对牌)上,Qwen3.5-397B能正确配对90.6%的牌组,表现相当不错。但当棋盘扩大到12×12(72对牌)时,成功率直接崩溃到0.7%——几乎完全失灵。与此同时,每配对一对牌平均需要的翻牌次数从4.59次暴增到720次,基本等同于在随机乱翻。
迷宫的情况也如出一辙。在7×7的小迷宫里,AI的综合评分还能达到66.7%;但迷宫扩大到15×15之后,评分跌至19.7%,而且探索覆盖率(走过的格子占总格子的比例)也从45%下降到15%。也就是说,在大迷宫里,AI不仅找不到出口,甚至连走遍迷宫的欲望都消失了——它越来越像一只在角落里原地打转的困兽。
这组数据揭示了一个关键的规律:这些AI模型在小规模任务上表现尚可,说明它们是理解规则的。但一旦需要记忆的信息量超过某个临界点,它们的隐藏状态重建能力就会系统性地崩溃。问题不在于不理解规则,而在于记忆容量的天花板。
**七、文字与图像:两种"语言"的天壤之别**
这项研究还揭示了一个非常反直觉的发现:对于这些本来被宣传为"多模态"(能同时理解文字和图像)的顶尖AI来说,看图玩翻牌游戏远比看文字玩要难得多。
研究团队把观察方式分为三种来做测试。翻牌游戏里,分别用纯文字描述("第三行第二列是红心3")、ASCII风格的图形牌、以及带有噪点纹理的图像牌来呈现;迷宫游戏里,分别用文字符号地图、2D方块图和真实3D第一人称渲染来呈现。
结果令人咋舌:两款AI在纯文字翻牌模式下的成功率都是100%,但换成噪点图像牌后,Qwen3.5-397B的成功率跌到38.3%,Kimi-K2.5跌到43.3%。迷宫测试中,文字符号模式下Qwen的综合评分高达70.9%,但换成3D视角渲染后只剩23.7%。
换句话说,这些AI在处理图像信息时的记忆绑定能力远弱于处理文字信息。它们能记住"红心3在第三行第二列"这句话,却难以记住一张模糊的噪点图案对应的位置。这暗示了一个重要的技术局限:这些模型的视觉编码器在把图像转化为可记忆的内部表示时,存在明显的信息损失。
**八、行动记录有多重要:一次"抹掉笔记"的实验**
还有一个细节实验的结果让人印象深刻。在正常情况下,AI的对话历史里包含它自己每一步的"行动记录"——比如"我在第三行第二列翻出了红心3,然后在第五行第一列翻出了黑桃7,不匹配,翻回去了"。理论上,棋盘的图像应该已经包含了这些信息(因为翻过的牌要么被移走要么还在原地),为什么还需要文字记录?
研究团队做了一个实验:把对话历史里的行动记录全部抹掉,只留下每一步的棋盘图片。结果非常戏剧化:GPT-5.4的成功率从62.3%跌至15.3%,下降了约75%;Qwen3.5-397B从25.3%跌至6.3%,跌幅相近。
这说明,AI并不是真的从图像的视觉差异中提取行动历史(尽管理论上它可以这么做),而是严重依赖显式的文字行动记录来维持自己的"内部账本"。行动记录并不是可有可无的装饰品,而是整个记忆体系的承重墙——一旦移除,整栋楼就塌了。
**九、教AI记性变好:一次有成效的训练实验**
发现了问题之后,研究团队自然要尝试解决方案。他们的思路是:既然这两款游戏有固定的规则,就可以用程序生成大量的"完美示范游戏"(最优策略下的完整游戏记录),用这些记录来训练一个更小的AI——Qwen3.5-9B(参数量约90亿,远小于前面测试的397B版本)。
数据来源有两种。第一种叫"最优池":直接用手写的最优算法玩游戏,生成了3.2万条毫无错误的完美游戏记录;第二种叫"混合池":在最优记录里混入6000条由大型AI(Qwen3.5-397B和Kimi-K2.5)自己玩成功的游戏记录,总量同样控制在3.2万条。混入真实AI的成功游戏记录,是为了给训练数据增加一些"从困难局面中恢复过来"的样本——因为完美的最优记录里不包含任何失误和挽救,而真实游戏几乎总会遇到困难。
训练完成后,效果是实实在在的。在比训练用的棋盘和迷宫都更大的尺寸上测试,只用最优数据训练的版本,翻牌成功率从0%(原始未训练)提升到14.6%,迷宫综合评分从1.5%升到5%。加入6000条真实AI成功记录后,翻牌成功率进一步提升到29.5%,每配对一对牌所需翻牌次数也从14.7次降至6.8次,迷宫成功率也出现了唯一的非零记录(10%)。
更令人振奋的是,这种训练带来的提升不只局限于这两款游戏。研究团队把训练后的模型拿去测了一系列外部基准测试,发现它在专门考察记忆和空间推理能力的测试集上平均提升了3.4分,在通用多模态能力测试集上也平均微升了0.5分,没有出现"学了新东西、忘了老东西"的负面迁移。
说到底,这项研究做的事情,就像是发明了一种专门针对记忆力缺陷的训练方法。学完之后不仅记性变好了,其他能力也没有受损——这对于开发能在真实世界中长期工作的AI助手来说,是非常关键的一步。
当然,研究团队也坦诚地指出了局限性。目前的测试只覆盖了翻牌和迷宫两种游戏,未来还需要测试更多类型的任务。同时,记忆缺口指标是在特定的"开卷考试"条件下测量的,它能作为实用诊断工具,但不能被当作绝对的因果分解来使用。训练实验也只在一个模型家族上做了验证,是否能推广到其他模型还需要进一步研究。
归根结底,这项研究告诉我们一件很重要的事:当我们谈论AI有多聪明的时候,我们往往只测试了它看着当前画面做判断的能力。但现实中的大量任务需要AI记住过去、整合历史、再做决定。这种"记忆驱动的行动"能力,目前还是一块很大的短板,而且有了可以量化的工具去衡量它——这才是真正往前迈出的一步。
Q&A
Q1:RNG-Bench测试的是AI的什么能力?
A:RNG-Bench测试的是AI在多步骤交互中,依靠"过去看到过但当前已不可见"的信息来做出正确行动的能力,研究团队称之为"记忆驱动的行动"能力。简单说,就是AI在长时间交互中能不能记住历史信息、并在关键时刻正确调用它,而不是每次只盯着眼前的画面做判断。
Q2:为什么AI在图像模式下的表现比文字模式差这么多?
A:研究发现,AI在把图像信息转化为可以长期记忆的内部表示时,存在明显的信息损失。用文字描述(如"红心3在第三行第二列")时,信息格式紧凑且精确,AI能高效记住。但面对一张图像时,视觉编码器在提取和绑定"这个图案在这个位置"这类信息时效果欠佳,导致跨越多个回合后信息大量流失。
Q3:翻牌记忆游戏和3D迷宫游戏有什么本质区别?
A:翻牌游戏考验的是"静态、离散"的记忆——牌的位置和图案固定不变,只需记住和查找已知信息。3D迷宫考验的是"动态、空间性"的记忆——每走一步都需要更新自己在迷宫中的位置、朝向和走过的路径,需要持续构建和维护一张不断变化的内部地图。两种记忆需求不同,因此不同AI在两款游戏中的排名也出现了明显差异。
热门跟贴