复旦、浙大、上海AI实验室联合揭示大模型的"遗忘短板"|kimi|棋盘|游戏|迷宫

这项由复旦大学、浙江大学、上海人工智能实验室及香港中文大学联合开展的研究，以预印本形式于2026年6月17日发布，论文编号为arXiv:2606.19338。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**一、你的AI助手其实患有"短期失忆症"**

考虑这样一个场景：你正在跟一位助理一起翻找老照片。你刚刚翻出了一张奶奶年轻时的照片，放在桌子左边，然后继续翻其他的。五分钟后，你想把那张照片放进相册，但助理已经完全忘记了它放在哪里。你只好再找一遍。

这个场景听起来很荒唐，但这恰恰是当前最先进的AI助手在某些任务中的真实表现。研究团队设计了一套叫做"RNG-Bench"（可重建非马尔可夫游戏基准）的测试系统，专门揭示了这一被大多数人忽视的致命弱点。

整个研究的核心问题是：当AI在多步骤交互中需要依靠"过去看到过但现在已不可见"的信息来做决定时，它能做好吗？答案令人警醒——不能，而且差得相当远。

**二、"马尔可夫"和"非马尔可夫"：一个关键的哲学区别**

要理解这项研究，必须先弄清楚一个核心概念。研究团队用下棋来做类比，非常贴切。

下围棋的时候，棋盘上的当前局面就包含了你做出下一步决策所需要的全部信息。你不需要记住三十步前对手走了哪一步，因为那些影响都已经体现在当前的棋盘上了。这种"当前状态足以决定最优行动"的游戏，专业术语叫做"马尔可夫"游戏。大多数AI擅长的棋类游戏，比如围棋、象棋、五子棋，都属于这一类。

然而生活中有大量的情况并不是这样的。回到翻照片的例子：当你翻开第三张照片时，你眼前看到的画面（第三张照片）根本无法告诉你之前看过哪些照片放在了哪里。这种"仅凭当前状态无法做出最优决策，必须依赖历史记忆"的情况，就叫做"非马尔可夫"。

研究团队把这个区别拎得很清楚：在非马尔可夫环境里，AI面临的挑战分为两步——先要从历史信息中重建出一个"内部信念地图"，然后再依据这张地图做出行动。任何一步出错，后面的所有决定都可能跟着出错，因为每一次错误的行动都会改变接下来能看到的画面，形成连锁反应。

**三、两个精心设计的考试：翻牌记忆和3D迷宫**

研究团队设计了两款游戏来测试AI的这种能力，每款游戏考察的"记忆"类型略有不同，就像用不同科目的试卷来全面考察一个学生。

第一款游戏是"翻牌配对"。规则和儿时玩过的记忆翻牌游戏完全一样：一块网格板上放着成对的牌，全部背面朝上。每次翻开两张，如果图案相同就移走得分，如果不同就翻回去。关键在于，每张牌只有被翻到的那一刻才会露出图案，之后就又变成了背面。要想高效通关，玩家必须记住每次翻牌时看到的图案和位置，以便下次精准找到配对。

这个游戏测试的是"静态、离散的隐藏状态"——牌的位置和图案是固定的，只需要把看到过的信息牢牢记住，在正确的时机取用就行。

第二款游戏是"3D迷宫导航"。AI被扔进一个程序生成的三维迷宫，只能看到第一人称视角（就像站在迷宫里往前看），没有地图，目标是从左上角走到右下角。每走一步，之前的走廊就从视野里消失了。要想不迷路、不走回头路、最终找到出口，AI必须一边走一边在脑海中拼出整个迷宫的地图，同时追踪自己当前的位置和朝向。

这个游戏测试的是"动态、空间性的隐藏状态"——随着每一步行走，需要记住和更新的信息量在持续增长，而且稍有偏差整个空间感就会崩塌。

两款游戏都在一个统一的测试框架下运行，沿着三个维度系统地调整难度：网格或迷宫的尺寸（决定需要记住的信息量）、视觉图案的类型（决定认出图案的难度）、以及观察方式（文字描述还是真实图像）。最难的配置需要AI处理大约12.8万个文字符号和350张图片，相当于让它同时看一部长篇小说并记住里面每一个细节。

**四、精英AI们的表现：差距出乎意料**

测试结果让人大开眼界，因为各款顶尖AI的表现不仅整体不理想，而且在两款游戏之间的排名还出现了明显翻转。

在翻牌配对游戏的10×10棋盘（共50对牌）、图像模式测试中，表现最好的是GPT-5.4，它配对成功了62.3%的牌组；Gemini-3.1-Pro以50%紧随其后；Qwen3.5-397B（一款参数量达3970亿的超大型模型）只成功了25.3%。作为参照，一个按最优策略玩牌的理想玩家，平均每配对一对牌只需要3.24次翻牌，而最强的GPT-5.4平均需要8.01次——效率差了将近三倍。

然而换到3D迷宫（13×13规格，最优路径平均60步），排名竟然发生了戏剧性的逆转。Gemini-3.1-Pro以50%的成功率和49.7%的综合评分夺冠；GPT-5.4的成功率跌至20%；Qwen3.5-397B则以0%的成功率垫底，也就是说，它在所有测试回合里一次都没能走出迷宫。

这个排名的翻转本身就说明了一个重要问题：翻牌记忆考验的是"静态的、分类式的记忆"，而迷宫导航考验的是"动态的、空间性的心智地图构建"。这是两种截然不同的认知能力，不同的AI系统对二者的掌握程度并不一致。

研究团队还引入了一种更刺激的"决斗模式"——让两个AI同台竞技翻同一块牌板。关键在于，对手翻牌时露出的图案，自己也能看到并加以利用。这相当于考验AI能否将"对手暴露的信息"也纳入自己的记忆体系中。在16场循环赛中，Gemini-3.1-Pro场场获胜，赢得了全部16局，Elo评分高达1803分，而Seed-2.0-Lite只赢了16%的比赛，评分仅1306分。

**五、记忆缺口：一把拆解失败原因的解剖刀**

仅仅知道AI表现差还不够，研究团队更想知道：AI的失败究竟是因为"忘了过去看到的东西"，还是因为"即便记住了也不知道该怎么用"？

为了分开这两种失败，他们设计了一个叫做"记忆缺口"（Memory Gap）的指标。具体做法是：在正常测试之外，再做一组"开卷考试"——每一步都把隐藏信息（所有牌的位置、迷宫的全貌）直接喂给AI，看它在信息完整的情况下能做到多好。两种情况下得分之间的差距，就是记忆缺口，它直接告诉我们"忘记"这件事本身造成了多大的损失。

测试结果显示，记忆缺口相当惊人。以Qwen3.5-397B为例，在8×10翻牌游戏中，正常情况下它的得分是38.3%；但当每一步都告诉它所有牌在哪里时，得分飙升到78.7%。记忆缺口高达51.3%，也就是说，超过一半的失分都是纯粹因为"忘记了"，而不是"不会下棋"。Kimi-K2.5的情况类似，记忆缺口为46.1%。

在3D迷宫中，提供小地图后的改善幅度虽然也存在（Qwen的综合评分从23.8%升至40.2%），但相对于翻牌游戏，改善比例更小（记忆缺口约为40.8%）。这说明迷宫除了记忆问题之外，还存在其他的困难——即便拿到了地图，AI还需要具备空间规划能力，才能真正找到出路。

**六、越难越崩溃：规模效应的残酷验证**

如果说上面的结果还不够令人印象深刻，那么这组实验数据应该能说明问题。

研究团队系统地把翻牌棋盘从4×4扩大到12×12，同时把迷宫从5×5放大到15×15，观察AI的表现随难度增加如何变化。在4×4的小棋盘（只有8对牌）上，Qwen3.5-397B能正确配对90.6%的牌组，表现相当不错。但当棋盘扩大到12×12（72对牌）时，成功率直接崩溃到0.7%——几乎完全失灵。与此同时，每配对一对牌平均需要的翻牌次数从4.59次暴增到720次，基本等同于在随机乱翻。

迷宫的情况也如出一辙。在7×7的小迷宫里，AI的综合评分还能达到66.7%；但迷宫扩大到15×15之后，评分跌至19.7%，而且探索覆盖率（走过的格子占总格子的比例）也从45%下降到15%。也就是说，在大迷宫里，AI不仅找不到出口，甚至连走遍迷宫的欲望都消失了——它越来越像一只在角落里原地打转的困兽。

这组数据揭示了一个关键的规律：这些AI模型在小规模任务上表现尚可，说明它们是理解规则的。但一旦需要记忆的信息量超过某个临界点，它们的隐藏状态重建能力就会系统性地崩溃。问题不在于不理解规则，而在于记忆容量的天花板。

**七、文字与图像：两种"语言"的天壤之别**

这项研究还揭示了一个非常反直觉的发现：对于这些本来被宣传为"多模态"（能同时理解文字和图像）的顶尖AI来说，看图玩翻牌游戏远比看文字玩要难得多。

研究团队把观察方式分为三种来做测试。翻牌游戏里，分别用纯文字描述（"第三行第二列是红心3"）、ASCII风格的图形牌、以及带有噪点纹理的图像牌来呈现；迷宫游戏里，分别用文字符号地图、2D方块图和真实3D第一人称渲染来呈现。

结果令人咋舌：两款AI在纯文字翻牌模式下的成功率都是100%，但换成噪点图像牌后，Qwen3.5-397B的成功率跌到38.3%，Kimi-K2.5跌到43.3%。迷宫测试中，文字符号模式下Qwen的综合评分高达70.9%，但换成3D视角渲染后只剩23.7%。

换句话说，这些AI在处理图像信息时的记忆绑定能力远弱于处理文字信息。它们能记住"红心3在第三行第二列"这句话，却难以记住一张模糊的噪点图案对应的位置。这暗示了一个重要的技术局限：这些模型的视觉编码器在把图像转化为可记忆的内部表示时，存在明显的信息损失。

**八、行动记录有多重要：一次"抹掉笔记"的实验**

还有一个细节实验的结果让人印象深刻。在正常情况下，AI的对话历史里包含它自己每一步的"行动记录"——比如"我在第三行第二列翻出了红心3，然后在第五行第一列翻出了黑桃7，不匹配，翻回去了"。理论上，棋盘的图像应该已经包含了这些信息（因为翻过的牌要么被移走要么还在原地），为什么还需要文字记录？

研究团队做了一个实验：把对话历史里的行动记录全部抹掉，只留下每一步的棋盘图片。结果非常戏剧化：GPT-5.4的成功率从62.3%跌至15.3%，下降了约75%；Qwen3.5-397B从25.3%跌至6.3%，跌幅相近。

这说明，AI并不是真的从图像的视觉差异中提取行动历史（尽管理论上它可以这么做），而是严重依赖显式的文字行动记录来维持自己的"内部账本"。行动记录并不是可有可无的装饰品，而是整个记忆体系的承重墙——一旦移除，整栋楼就塌了。

**九、教AI记性变好：一次有成效的训练实验**

发现了问题之后，研究团队自然要尝试解决方案。他们的思路是：既然这两款游戏有固定的规则，就可以用程序生成大量的"完美示范游戏"（最优策略下的完整游戏记录），用这些记录来训练一个更小的AI——Qwen3.5-9B（参数量约90亿，远小于前面测试的397B版本）。

数据来源有两种。第一种叫"最优池"：直接用手写的最优算法玩游戏，生成了3.2万条毫无错误的完美游戏记录；第二种叫"混合池"：在最优记录里混入6000条由大型AI（Qwen3.5-397B和Kimi-K2.5）自己玩成功的游戏记录，总量同样控制在3.2万条。混入真实AI的成功游戏记录，是为了给训练数据增加一些"从困难局面中恢复过来"的样本——因为完美的最优记录里不包含任何失误和挽救，而真实游戏几乎总会遇到困难。

训练完成后，效果是实实在在的。在比训练用的棋盘和迷宫都更大的尺寸上测试，只用最优数据训练的版本，翻牌成功率从0%（原始未训练）提升到14.6%，迷宫综合评分从1.5%升到5%。加入6000条真实AI成功记录后，翻牌成功率进一步提升到29.5%，每配对一对牌所需翻牌次数也从14.7次降至6.8次，迷宫成功率也出现了唯一的非零记录（10%）。

更令人振奋的是，这种训练带来的提升不只局限于这两款游戏。研究团队把训练后的模型拿去测了一系列外部基准测试，发现它在专门考察记忆和空间推理能力的测试集上平均提升了3.4分，在通用多模态能力测试集上也平均微升了0.5分，没有出现"学了新东西、忘了老东西"的负面迁移。

说到底，这项研究做的事情，就像是发明了一种专门针对记忆力缺陷的训练方法。学完之后不仅记性变好了，其他能力也没有受损——这对于开发能在真实世界中长期工作的AI助手来说，是非常关键的一步。

当然，研究团队也坦诚地指出了局限性。目前的测试只覆盖了翻牌和迷宫两种游戏，未来还需要测试更多类型的任务。同时，记忆缺口指标是在特定的"开卷考试"条件下测量的，它能作为实用诊断工具，但不能被当作绝对的因果分解来使用。训练实验也只在一个模型家族上做了验证，是否能推广到其他模型还需要进一步研究。

归根结底，这项研究告诉我们一件很重要的事：当我们谈论AI有多聪明的时候，我们往往只测试了它看着当前画面做判断的能力。但现实中的大量任务需要AI记住过去、整合历史、再做决定。这种"记忆驱动的行动"能力，目前还是一块很大的短板，而且有了可以量化的工具去衡量它——这才是真正往前迈出的一步。

Q&A

Q1：RNG-Bench测试的是AI的什么能力？

A：RNG-Bench测试的是AI在多步骤交互中，依靠"过去看到过但当前已不可见"的信息来做出正确行动的能力，研究团队称之为"记忆驱动的行动"能力。简单说，就是AI在长时间交互中能不能记住历史信息、并在关键时刻正确调用它，而不是每次只盯着眼前的画面做判断。

Q2：为什么AI在图像模式下的表现比文字模式差这么多？

A：研究发现，AI在把图像信息转化为可以长期记忆的内部表示时，存在明显的信息损失。用文字描述（如"红心3在第三行第二列"）时，信息格式紧凑且精确，AI能高效记住。但面对一张图像时，视觉编码器在提取和绑定"这个图案在这个位置"这类信息时效果欠佳，导致跨越多个回合后信息大量流失。

Q3：翻牌记忆游戏和3D迷宫游戏有什么本质区别？

A：翻牌游戏考验的是"静态、离散"的记忆——牌的位置和图案固定不变，只需记住和查找已知信息。3D迷宫考验的是"动态、空间性"的记忆——每走一步都需要更新自己在迷宫中的位置、朝向和走过的路径，需要持续构建和维护一张不断变化的内部地图。两种记忆需求不同，因此不同AI在两款游戏中的排名也出现了明显差异。