上交大、北航证明：让AI"看图解题"的空间智慧连6岁小孩都不如？|上交大|北航|推理|看图解题|空间智慧|迷宫

这项由上海交通大学、中国人民大学与北京通用人工智能研究院（BIGAI）联合开展的研究，发表于2026年ICLR（国际学习表征会议）效率化空间推理研讨会，论文编号为arXiv:2604.22868，感兴趣的读者可通过该编号检索完整论文。

一、人类眼中的小问题，AI眼中的大难题

走迷宫这件事，对大多数人来说简直不值一提。一个六七岁的孩子，拿到一张印有迷宫的纸，往往只需要扫几眼，手里的铅笔就能顺着路径一气呵成画到终点。这种"看了就会"的能力，我们称之为视觉空间推理——不需要把路线写成文字，不需要列方程，只需要眼睛看、大脑判断、手直接画。

然而，对于当今最先进的人工智能来说，这件事却难倒了它们。当研究团队把一张迷宫图片丢给市面上最强的AI图像编辑模型，要求它"在图上画出从起点到终点的路径，保持迷宫结构不变"时，结果往往让人啼笑皆非——AI要么把墙壁直接穿过去，要么画出一条完全不连通的断头路，要么干脆什么都没画。

这背后藏着一个被长期忽视的深层问题：现有的AI视觉智能，究竟真的"看懂"了图像，还是只是在模仿人类的表面行为？为了给这个问题找到一个严谨的答案，这支来自中国几所顶尖机构的研究团队做了一件很有意思的事情：他们设计了一套测试系统，把"视觉空间推理能力"像考试一样量化出来，然后邀请各路AI选手和不同年龄段的人类一起参赛，看看究竟谁更胜一筹。

二、用"画图"代替"说话"——一个全新的测试框架

以往，当研究者想让AI解决迷宫问题时，最常见的做法是让AI把问题"翻译"成文字，再用语言模型去推理。比如"从坐标(1,1)出发，向右走两格，再向下走三格……"——这本质上是把一个视觉问题转化成了一道文字题。这种方法就好比你想测试一个人的游泳能力，却让他写一篇作文来描述游泳动作。写作文和游泳，完全是两码事。

这支研究团队提出了一个全新的思路，他们称之为EAR，即"编辑即推理"（Editing as Reasoning）。核心思想非常直接：既然问题本身是视觉的，那答案也应该是视觉的。具体操作上，他们把一张带问题的图片喂给AI，让AI直接在图片上"画出答案"，就像人类拿着铅笔在纸上解题一样。AI输出的不是一段文字，而是一张修改过的图片——图片上的答案路径就是AI对这道题的"理解"。

这个框架有一个特别聪明的地方：整个解题过程被压缩成了"一步"。AI不像某些系统那样需要一步一步生成中间图像、逐渐逼近答案，它必须在一次"编辑"操作中直接给出完整的解。这就像老师出了一道题，不允许打草稿，要求学生直接在答题纸上写出最终答案。这种约束使得测试结果能更真实地反映AI是否真正"理解"了问题，而不是靠逐步试探蒙出来的。

三、测试题设计有讲究——迷宫和皇后，互补的两种考验

为了让测试公平、可量化，团队专门设计了一套叫做AMAZE的标准化题库。题目来自两种经典的智力谜题，分别对应两种截然不同的空间推理能力。

第一种是迷宫问题。题目给出一张迷宫图，上面有一个红色实心圆点标示起点，一个红色"×"标示终点，AI的任务是在图上画出一条蓝色路径把两者连通，且路径必须沿着通道走，不能穿越墙壁。迷宫的解题过程是**顺序性**的——你必须从起点出发，一步一步往前探索，每走一步都受到当前位置周边墙壁的限制，走错了还得回头。这考察的是在"局部约束"下进行"连续规划"的能力。

为了增加测试的多样性，迷宫还被设计成四种不同的几何形式：方格迷宫（最常见的那种）、六边形迷宫（像蜂巢一样，每个格子有六个方向可以走）、三角形迷宫（每个格子有多种斜向路径）以及圆形迷宫（同心圆加放射线形成的螺旋结构）。不同几何形式意味着不同的行走规则和视觉外观，难度也各有差异。迷宫的规模从3×3到16×16不等，越大越难。

第二种是皇后问题。这是一道源自国际象棋的组合谜题：在一个被不同颜色区域划分的棋盘上，每个颜色区域放一枚棋子（用实心黑色圆点表示"皇后"），要求每行、每列、每个颜色区域都恰好有一枚棋子，且任意两枚棋子不能在8个方向的邻格上相互攻击。皇后问题是**并行性**的——所有棋子的摆放必须同时满足全局约束，你调整一个棋子的位置，可能同时影响其他所有棋子。棋盘规模从4×4到10×10不等。

两种题目形成了很好的互补：迷宫考验"局部约束下的路径规划"，皇后考验"全局约束下的组合推理"。前者的推理过程是"边走边想"，后者必须"全盘统筹"。研究团队一共生成了2800道迷宫题（每种几何类型各700道）和350道皇后题，全部由程序自动生成，每道题都有唯一正确答案。

四、打分标准：不只看"好不好看"，更看"对不对"

评判AI画出来的答案，是这套测试系统的另一个核心设计。在大多数图像生成任务中，人们习惯用图像质量来评分——生成的图片清不清晰、色彩对不对、风格像不像。但这在逻辑推理任务中完全不够用：一条画得很漂亮的路径，如果穿墙了，那就是错的，不管它多好看。

团队为此设计了两套相互独立的评价指标。第一套叫**逻辑有效性**，直接衡量答案对不对：覆盖率（Coverage）衡量AI画出的路径覆盖了多少"正确路径"，违规率（Violation）衡量AI画出的内容有多少落在"错误区域"。最终的综合得分叫做PASS，计算方式是用覆盖率减去违规率，取零到一之间的值。PASS等于1意味着AI画的路径和标准答案完全吻合。第二套叫**像素级保真度**，用均方误差（MSE）来衡量AI修改了哪些不该修改的地方，比如把迷宫的墙壁颜色改了，或者在不该有颜色的地方添加了内容。

为了验证这套自动评分系统的可靠性，研究团队还请了三名人类评判员，对随机抽取的题目进行人工打分，再对比机器评分和人工评分的一致程度。结果显示两者的吻合率高达98%。剩余2%的差异主要来自两种特殊情况：一是题目本身太复杂，人眼也容易看花；二是AI画的路径颜色太浅，人眼看不清，但机器能检测到。这说明这套自动评分系统相当可靠。

五、主角登场：参加测试的AI选手们

研究团队邀请了市面上多款主流的图像编辑AI参加测试，分为商业闭源模型和开源模型两大阵营。

商业闭源模型包括三位：OpenAI的GPT-Image-1、Google DeepMind的NanoBanana-Pro，以及国内的Seedream-4.5。这三款模型都是所在公司拿出来的最强图像生成产品，正常情况下图片生成质量非常高。

开源模型则有四款：Qwen-Image-Edit（阿里的千问图像编辑版本）、Flux-Kontext-Dev（来自Black Forest Labs的扩散模型）、Bagel（来自BIGAI自身的多模态统一模型）、Janus-Pro-7B（来自深势科技的自回归模型）。前三款是扩散模型，最后一款是自回归模型。

扩散模型和自回归模型，是当前AI图像生成的两大主流技术路线。可以用一个类比来理解它们的区别：自回归模型就像一个人写书法，一笔一划按顺序写，每一笔都基于之前写的内容来决定；扩散模型则更像一个画家在一张白纸上反复涂抹修改，先是大致轮廓，再逐渐填充细节，整体和局部同时演化。这两种方式对于空间推理来说，有着本质上的差异，研究团队对此非常感兴趣。

六、零分惨案——未经训练的AI表现有多差？

在未经专门训练的零样本测试中，几乎所有模型都表现很差。PASS@1这个指标代表AI第一次尝试就答对的概率，类似于人类一次性通过考试。

在迷宫测试中，三款商业闭源模型中最好的是GPT-Image-1，但其PASS@1只有5.4%，意味着大约每20次尝试才能成功一次。NanoBanana-Pro的图像质量最好，但它有一个明显的坏习惯：喜欢把整张迷宫的所有通道都画满路径，不管那些通道走不走得通，它的违规率高达47.76%，可以理解为它"把所有可能的路都画上了，但不知道哪条才是真正的解"。Seedream-4.5走了另一个极端，它违规率低，但覆盖率也低，因为它根本不怎么画，只画了一小段就停了。

开源模型的情况更糟。Bagel的PASS@1是0，Janus-Pro的PASS@1也是0。这两款模型在零样本条件下完全无法完成任务。不过，由于它们是开源的，研究团队可以对其进行针对性的训练。

皇后问题上，有一个例外让研究团队颇为意外：NanoBanana-Pro的PASS@1达到了30.35%，远超其他所有模型。这个成绩实在太亮眼，研究者怀疑这款模型在训练阶段可能已经见过类似的皇后谜题，否则很难解释这种突出表现。其余模型在皇后问题上的PASS@1基本接近零。

七、专门训练后的逆袭——扩散模型为什么更擅长"画出逻辑"？

研究团队对开源模型进行了有针对性的微调训练。训练数据选用的是最简单规模的题目：3×3大小的迷宫（四种几何类型各800道，共3200道）和4×4大小的皇后题（800道）。训练过程最多进行8轮，当验证集上的误差不再下降时提前停止。

训练结果非常明显。扩散模型Bagel在迷宫任务上的PASS@1从0跳升到了11.54%，并且PASS@5（五次尝试至少一次正确）达到了23.64%，比之前最强的商业模型GPT-Image-1高出了整整6个百分点。在皇后任务上，Bagel的PASS@1也达到了14.57%。

相比之下，自回归模型Janus-Pro训练后的进步要小得多：迷宫任务的PASS@1只有1.43%，皇后任务为12.57%。两者之间的差距揭示了一个有趣的规律：扩散模型似乎天然更擅长发展出"视觉推理逻辑"。

研究团队给出了一个合理的解释。扩散模型的工作方式是从模糊到清晰地逐步细化整张图片，在这个过程中，它必须同时考虑全局结构和局部细节，这种"先全局后细节"的天性与视觉规划任务非常契合。而自回归模型是按照固定顺序（通常是从左到右、从上到下）逐个生成像素或图块，这种线性的、局部的生成方式缺乏对全局结构的整体把握。就好比，一个人画迷宫路径时是先在脑海中规划整条路线再一笔画完，而不是从起点开始一格一格往前试探。

从Bagel的生成过程来看，这种"全局先行"的特性在可视化中非常明显。在去噪的早期步骤（相当于图像还很模糊的时候），整条路径的大致走向已经出现了，只是颜色很浅、线条不清晰；随着去噪步骤推进，错误的支路被逐渐纠正，最终收敛到一条有效路径。皇后问题的解题过程也类似：早期步骤中已经出现了棋子摆放的大致格局，后续再进行精细调整。

八、"思维链"提示——有时有用，有时白费

在人类解题时，我们经常先在草稿纸上写写画画，理清思路再下笔。受此启发，研究团队还测试了一种叫做"思维链"（Chain-of-Thought，CoT）的提示方式：在让AI作答之前，先要求它在文字中描述自己的推理过程，然后再据此生成图像答案。

结果显示，这种方法对没经过专门训练的模型几乎没有帮助。对于Bagel和Janus-Pro这两款开源模型，在零样本测试中加入思维链提示，PASS@1依然是0。这说明，如果模型本身还没有掌握这类任务的内在逻辑，光靠"先说说自己怎么想的"并不能让它突然开窍。

经过训练之后，思维链提示带来了一点微小的改善。Bagel加上CoT后，迷宫任务的PASS@1从11.54%微升至17.90%（PASS@5则从23.64%微降至18.42%，变化复杂）。这说明模型必须先从训练中内化任务的基本规律，然后才能有效利用显式的推理步骤。就像一个没学过游泳的人，光给他讲再多游泳理论，他依然不会游，必须先下水练过才行。

九、泛化能力测试——在小题上练出来的本领，能用在大题上吗？

仅仅在3×3迷宫上表现好，算不上真正的空间推理能力。研究团队对泛化能力进行了更严格的考察，主要从两个维度展开。

第一个维度是跨几何类型的泛化。在一种形状的迷宫上训练的模型，能不能解另一种形状的迷宫？结果显示，在六边形迷宫上训练的模型泛化效果最好：它在三角形迷宫上的PASS@5达到40.14%，在方形迷宫上达到30%，甚至超过了在这些类型上单独训练的模型。研究团队的解释是：六边形迷宫里有六个方向可以行走，行动空间最大，因此学到的"寻路逻辑"涵盖了方形（四方向）和三角形（三方向）的子集，迁移能力自然最强。

更进一步，在8×8大小的六边形迷宫上训练之后，模型的跨几何泛化能力得到了大幅提升，所有几何类型的PASS@5成绩都远高于在3×3上训练的结果。这说明，接触更复杂的问题能逼迫模型真正学会"规划"的本质，而不仅仅是记住简单图案。

第二个维度是跨规模的泛化。在小规模题目上训练，能解大规模题目吗？答案出乎意料地乐观：仅仅在3×3迷宫上训练的模型，已经能对16×16的大迷宫产生一定的效果。当训练规模扩大到8×8时，泛化到更大规模的能力进一步提升，模型能保持较低的违规率（说明它记住了不能穿墙）。不过，当迷宫规模很大时，模型经常出现"首尾难以为继"的问题——能从起点出发画出一段正确路径，也能在终点附近画出一段正确路径，但中间这两段就是连不起来。路径越长，这种"长程依赖"问题就越严重。

皇后问题在规模泛化上比迷宫更挑剔。在4×4棋盘上训练的模型，对4×4的题目表现完美，但对5×5、6×6的题目完全没有泛化能力——它只是把4×4的解法完整记住了，换个规模就不会了。只有在7×7棋盘上训练之后，才能对其他规模产生有意义的泛化效果。这说明，组合推理问题需要更复杂的训练经历才能建立起"规模无关"的推理能力。

十、多练多学有没有用？数据和算力的扩展效应

数据更多、训练更久，AI的空间推理能力会不会持续提升？研究团队对此进行了系统性测量。

在固定训练步数（1000步）的情况下，把训练数据量从800道题依次翻倍到6400道题。整体趋势是：从800增加到1600时，各任务的成绩有明显提升；但超过1600道之后，增加更多数据带来的收益越来越小，最终接近饱和。皇后问题比迷宫问题从数据量增加中受益更多，因为皇后的答案模式更多样，更多样本确实带来了更丰富的经验。不过，即便数据达到6400道，模型的成绩提升也已经趋于平缓。

在固定训练数据量（6400道）的情况下，把训练步数从500逐渐增加到1000。训练步数增加带来了持续的成绩提升，而且在700步之后提升更加明显：以六边形迷宫为例，从500到700步只提升了6.1%，而从700到1000步提升了15.8%。这种"越到后期越快"的增长趋势让研究团队乐观地推测，继续延长训练可能还会有进一步的收益。

更有意思的是，数据和算力之间存在相互依赖的关系：仅仅增加数据而不增加训练步数，效果有限；仅仅增加训练步数而不增加数据，也会遇到瓶颈。只有数据和算力同步放大，才能获得最好的效果。

十一、和真人比一比——AI的空间推理相当于几岁的孩子？

这个问题大概是整篇研究中最引人好奇的部分。研究团队邀请了三个年龄段各4名真实志愿者——6岁儿童、12岁少年和18岁成人——分别完成8×8、16×16、24×24三种规模的迷宫，以及4×4、7×7、10×10三种规模的皇后题。参与者可以用任意时间在脑子里想好了再动笔，但落笔之后不准擦除或修改，只能一笔画完（这与AI一次生成的规则对应）。研究团队为AI分配了与人类参与者相同的时间预算，AI在规定时间内可以尽量多地尝试生成，最终按成功次数统计成绩。

结论令人深思。随着允许时间增加，人类的成功率持续上升，尤其是成年人在有足够时间思考的情况下，成绩大幅提高。18岁组在225秒内就能对7×7皇后题达到100%成功率。而AI的成绩则几乎不随时间变化——不管给它7.5秒还是225秒，它每次尝试成功的概率是固定的，多给时间只是让它多试了几次，并不能提高单次尝试的质量。

更细致的分析显示，AI在迷宫任务上的表现与18岁成人最相关，但在皇后任务上与6岁儿童最相关。这个对比反映了两类任务的根本差异：迷宫的局部路径规划相对直觉性强，AI经过训练后在这方面已经接近成人水平的相关模式；但皇后问题需要同时满足全局约束，这种"同时考虑所有规则"的能力对AI来说依然非常困难，比它擅长的迷宫差了整整十几年的认知发育差距。

十二、AI犯错的两种方式

研究团队对AI的失败案例进行了归类，发现错误主要分为两大类型。

第一类叫"规则违反"：AI画的路径穿越了迷宫的墙壁，或者直接从起点连到终点没有走任何通道；皇后题中则表现为棋子摆放违反了行、列或颜色区域的唯一性要求。这种错误说明AI在"遵守规则"上存在缺陷，对图像结构的理解还不够精确，尤其在复杂几何形状（如圆形、六边形迷宫）中更为突出，因为这些形状的视觉规则与AI训练时见过的常见形状差别较大。

第二类叫"不完整解答"：AI画出了路径的一部分就停了，或者只放了一部分棋子。迷宫问题中最典型的表现是：从起点出发画了一段合法路径，但走到中途就停下了，没能到达终点。这在大规模迷宫中特别常见，因为路径越长，AI需要"记住"的中间状态就越多，超出了它的处理能力上限。皇后问题中则是只放了部分棋子就放弃了全局配置。

这两类错误本质上对应了同一个深层问题：AI目前还没有可靠的能力同时维持"局部正确性"和"全局完整性"。局部看起来没问题，但把所有部分拼在一起就不行了。

归根结底，这项研究揭示了一个有点扎心的现实：我们现在最强大的AI图像系统，在"看图解题"这件事上，连一个6岁孩子的直觉都比不上。当然，经过专门训练之后，AI在某些任务上确实取得了令人鼓舞的进步，甚至在简单迷宫上超越了最强的商业闭源模型。但面对稍微复杂一点的皇后问题，或者更大规模的迷宫，AI依然在挣扎。

这并不是说AI一无是处，而是说明了一件重要的事：现有的AI图像编辑模型，学习的是如何"模仿"视觉效果，而不是如何"理解"空间逻辑。人类大脑中有某种专门处理空间关系的神经机制，这让我们在看图时能自然而然地感知连通性、边界、方向感——这种直觉是几十年进化和成长积累下来的，不是靠刷更多图片数据就能轻松复制的。

当然，研究也带来了一些真正值得期待的发现。扩散模型在训练后展现出的"全局先行"解题模式——先模糊地规划整体路径，再逐步细化——与人类的直觉解题方式有几分相似。这暗示着也许未来通过更好的训练方式和模型架构，AI真的有可能培育出更接近人类的空间推理能力。至于那个EAR框架本身，"让AI直接在图上画出答案"这个思路，也为未来的视觉推理研究提供了一条新路线。

对这项研究感兴趣的读者，可以通过arXiv编号2604.22868检索完整论文，或访问项目主页spatigen.github.io/amaze.io/ 了解更多细节和演示案例，代码也已在github.com/spatigen/amaze开源。

Q&A

Q1：EAR框架和普通的AI图像生成有什么区别？

A：普通AI图像生成是从文字描述直接生成一张新图片，而EAR（编辑即推理）框架是给AI一张已有的问题图片（比如迷宫），让AI直接在上面"改图"画出答案，整个解题过程只有一步完成。这种方式更接近人类拿铅笔在纸上解题的方式，能更直接地测试AI是否真正理解了视觉空间关系，而不是靠文字转换来"绕弯子"解决视觉问题。

Q2：AMAZE基准测试具体包含哪些内容？

A：AMAZE基准测试包含两类谜题：迷宫问题（需要画出从起点到终点的路径）和皇后问题（需要在棋盘上满足行列颜色区域唯一性地摆放棋子）。迷宫有方形、六边形、三角形、圆形四种几何类型，规模从3×3到16×16；皇后题规模从4×4到10×10。总计有迷宫题2800道、皇后题350道，全部自动生成并带有唯一正确答案，评分也完全自动化，准确率高达98%。

Q3：为什么扩散模型比自回归模型更擅长视觉规划任务？

A：扩散模型的工作方式是从模糊到清晰地整体细化图像，这使它天然具有"先考虑全局再填充细节"的倾向，与需要统筹全局的空间规划任务非常匹配。相比之下，自回归模型按照固定顺序（比如从左到右）逐步生成图像内容，缺乏对整体结构的同步把握。实验结果也印证了这一点：经过相同训练后，扩散模型Bagel的迷宫成功率比自回归模型Janus-Pro高出整整8个百分点以上。