打开网易新闻 查看精彩图片

这项由上海交通大学、中国人民大学与北京通用人工智能研究院(BIGAI)联合开展的研究,发表于2026年ICLR(国际学习表征会议)效率化空间推理研讨会,论文编号为arXiv:2604.22868,感兴趣的读者可通过该编号检索完整论文。

一、人类眼中的小问题,AI眼中的大难题

走迷宫这件事,对大多数人来说简直不值一提。一个六七岁的孩子,拿到一张印有迷宫的纸,往往只需要扫几眼,手里的铅笔就能顺着路径一气呵成画到终点。这种"看了就会"的能力,我们称之为视觉空间推理——不需要把路线写成文字,不需要列方程,只需要眼睛看、大脑判断、手直接画。

然而,对于当今最先进的人工智能来说,这件事却难倒了它们。当研究团队把一张迷宫图片丢给市面上最强的AI图像编辑模型,要求它"在图上画出从起点到终点的路径,保持迷宫结构不变"时,结果往往让人啼笑皆非——AI要么把墙壁直接穿过去,要么画出一条完全不连通的断头路,要么干脆什么都没画。

这背后藏着一个被长期忽视的深层问题:现有的AI视觉智能,究竟真的"看懂"了图像,还是只是在模仿人类的表面行为?为了给这个问题找到一个严谨的答案,这支来自中国几所顶尖机构的研究团队做了一件很有意思的事情:他们设计了一套测试系统,把"视觉空间推理能力"像考试一样量化出来,然后邀请各路AI选手和不同年龄段的人类一起参赛,看看究竟谁更胜一筹。

二、用"画图"代替"说话"——一个全新的测试框架

以往,当研究者想让AI解决迷宫问题时,最常见的做法是让AI把问题"翻译"成文字,再用语言模型去推理。比如"从坐标(1,1)出发,向右走两格,再向下走三格……"——这本质上是把一个视觉问题转化成了一道文字题。这种方法就好比你想测试一个人的游泳能力,却让他写一篇作文来描述游泳动作。写作文和游泳,完全是两码事。

这支研究团队提出了一个全新的思路,他们称之为EAR,即"编辑即推理"(Editing as Reasoning)。核心思想非常直接:既然问题本身是视觉的,那答案也应该是视觉的。具体操作上,他们把一张带问题的图片喂给AI,让AI直接在图片上"画出答案",就像人类拿着铅笔在纸上解题一样。AI输出的不是一段文字,而是一张修改过的图片——图片上的答案路径就是AI对这道题的"理解"。

这个框架有一个特别聪明的地方:整个解题过程被压缩成了"一步"。AI不像某些系统那样需要一步一步生成中间图像、逐渐逼近答案,它必须在一次"编辑"操作中直接给出完整的解。这就像老师出了一道题,不允许打草稿,要求学生直接在答题纸上写出最终答案。这种约束使得测试结果能更真实地反映AI是否真正"理解"了问题,而不是靠逐步试探蒙出来的。

三、测试题设计有讲究——迷宫和皇后,互补的两种考验

为了让测试公平、可量化,团队专门设计了一套叫做AMAZE的标准化题库。题目来自两种经典的智力谜题,分别对应两种截然不同的空间推理能力。

第一种是迷宫问题。题目给出一张迷宫图,上面有一个红色实心圆点标示起点,一个红色"×"标示终点,AI的任务是在图上画出一条蓝色路径把两者连通,且路径必须沿着通道走,不能穿越墙壁。迷宫的解题过程是**顺序性**的——你必须从起点出发,一步一步往前探索,每走一步都受到当前位置周边墙壁的限制,走错了还得回头。这考察的是在"局部约束"下进行"连续规划"的能力。

为了增加测试的多样性,迷宫还被设计成四种不同的几何形式:方格迷宫(最常见的那种)、六边形迷宫(像蜂巢一样,每个格子有六个方向可以走)、三角形迷宫(每个格子有多种斜向路径)以及圆形迷宫(同心圆加放射线形成的螺旋结构)。不同几何形式意味着不同的行走规则和视觉外观,难度也各有差异。迷宫的规模从3×3到16×16不等,越大越难。

第二种是皇后问题。这是一道源自国际象棋的组合谜题:在一个被不同颜色区域划分的棋盘上,每个颜色区域放一枚棋子(用实心黑色圆点表示"皇后"),要求每行、每列、每个颜色区域都恰好有一枚棋子,且任意两枚棋子不能在8个方向的邻格上相互攻击。皇后问题是**并行性**的——所有棋子的摆放必须同时满足全局约束,你调整一个棋子的位置,可能同时影响其他所有棋子。棋盘规模从4×4到10×10不等。

两种题目形成了很好的互补:迷宫考验"局部约束下的路径规划",皇后考验"全局约束下的组合推理"。前者的推理过程是"边走边想",后者必须"全盘统筹"。研究团队一共生成了2800道迷宫题(每种几何类型各700道)和350道皇后题,全部由程序自动生成,每道题都有唯一正确答案。

四、打分标准:不只看"好不好看",更看"对不对"

评判AI画出来的答案,是这套测试系统的另一个核心设计。在大多数图像生成任务中,人们习惯用图像质量来评分——生成的图片清不清晰、色彩对不对、风格像不像。但这在逻辑推理任务中完全不够用:一条画得很漂亮的路径,如果穿墙了,那就是错的,不管它多好看。

团队为此设计了两套相互独立的评价指标。第一套叫**逻辑有效性**,直接衡量答案对不对:覆盖率(Coverage)衡量AI画出的路径覆盖了多少"正确路径",违规率(Violation)衡量AI画出的内容有多少落在"错误区域"。最终的综合得分叫做PASS,计算方式是用覆盖率减去违规率,取零到一之间的值。PASS等于1意味着AI画的路径和标准答案完全吻合。第二套叫**像素级保真度**,用均方误差(MSE)来衡量AI修改了哪些不该修改的地方,比如把迷宫的墙壁颜色改了,或者在不该有颜色的地方添加了内容。

为了验证这套自动评分系统的可靠性,研究团队还请了三名人类评判员,对随机抽取的题目进行人工打分,再对比机器评分和人工评分的一致程度。结果显示两者的吻合率高达98%。剩余2%的差异主要来自两种特殊情况:一是题目本身太复杂,人眼也容易看花;二是AI画的路径颜色太浅,人眼看不清,但机器能检测到。这说明这套自动评分系统相当可靠。

五、主角登场:参加测试的AI选手们

研究团队邀请了市面上多款主流的图像编辑AI参加测试,分为商业闭源模型和开源模型两大阵营。

商业闭源模型包括三位:OpenAI的GPT-Image-1、Google DeepMind的NanoBanana-Pro,以及国内的Seedream-4.5。这三款模型都是所在公司拿出来的最强图像生成产品,正常情况下图片生成质量非常高。

开源模型则有四款:Qwen-Image-Edit(阿里的千问图像编辑版本)、Flux-Kontext-Dev(来自Black Forest Labs的扩散模型)、Bagel(来自BIGAI自身的多模态统一模型)、Janus-Pro-7B(来自深势科技的自回归模型)。前三款是扩散模型,最后一款是自回归模型。

扩散模型和自回归模型,是当前AI图像生成的两大主流技术路线。可以用一个类比来理解它们的区别:自回归模型就像一个人写书法,一笔一划按顺序写,每一笔都基于之前写的内容来决定;扩散模型则更像一个画家在一张白纸上反复涂抹修改,先是大致轮廓,再逐渐填充细节,整体和局部同时演化。这两种方式对于空间推理来说,有着本质上的差异,研究团队对此非常感兴趣。

六、零分惨案——未经训练的AI表现有多差?

在未经专门训练的零样本测试中,几乎所有模型都表现很差。PASS@1这个指标代表AI第一次尝试就答对的概率,类似于人类一次性通过考试。

在迷宫测试中,三款商业闭源模型中最好的是GPT-Image-1,但其PASS@1只有5.4%,意味着大约每20次尝试才能成功一次。NanoBanana-Pro的图像质量最好,但它有一个明显的坏习惯:喜欢把整张迷宫的所有通道都画满路径,不管那些通道走不走得通,它的违规率高达47.76%,可以理解为它"把所有可能的路都画上了,但不知道哪条才是真正的解"。Seedream-4.5走了另一个极端,它违规率低,但覆盖率也低,因为它根本不怎么画,只画了一小段就停了。

开源模型的情况更糟。Bagel的PASS@1是0,Janus-Pro的PASS@1也是0。这两款模型在零样本条件下完全无法完成任务。不过,由于它们是开源的,研究团队可以对其进行针对性的训练。

皇后问题上,有一个例外让研究团队颇为意外:NanoBanana-Pro的PASS@1达到了30.35%,远超其他所有模型。这个成绩实在太亮眼,研究者怀疑这款模型在训练阶段可能已经见过类似的皇后谜题,否则很难解释这种突出表现。其余模型在皇后问题上的PASS@1基本接近零。

七、专门训练后的逆袭——扩散模型为什么更擅长"画出逻辑"?

研究团队对开源模型进行了有针对性的微调训练。训练数据选用的是最简单规模的题目:3×3大小的迷宫(四种几何类型各800道,共3200道)和4×4大小的皇后题(800道)。训练过程最多进行8轮,当验证集上的误差不再下降时提前停止。

训练结果非常明显。扩散模型Bagel在迷宫任务上的PASS@1从0跳升到了11.54%,并且PASS@5(五次尝试至少一次正确)达到了23.64%,比之前最强的商业模型GPT-Image-1高出了整整6个百分点。在皇后任务上,Bagel的PASS@1也达到了14.57%。

相比之下,自回归模型Janus-Pro训练后的进步要小得多:迷宫任务的PASS@1只有1.43%,皇后任务为12.57%。两者之间的差距揭示了一个有趣的规律:扩散模型似乎天然更擅长发展出"视觉推理逻辑"。

研究团队给出了一个合理的解释。扩散模型的工作方式是从模糊到清晰地逐步细化整张图片,在这个过程中,它必须同时考虑全局结构和局部细节,这种"先全局后细节"的天性与视觉规划任务非常契合。而自回归模型是按照固定顺序(通常是从左到右、从上到下)逐个生成像素或图块,这种线性的、局部的生成方式缺乏对全局结构的整体把握。就好比,一个人画迷宫路径时是先在脑海中规划整条路线再一笔画完,而不是从起点开始一格一格往前试探。

从Bagel的生成过程来看,这种"全局先行"的特性在可视化中非常明显。在去噪的早期步骤(相当于图像还很模糊的时候),整条路径的大致走向已经出现了,只是颜色很浅、线条不清晰;随着去噪步骤推进,错误的支路被逐渐纠正,最终收敛到一条有效路径。皇后问题的解题过程也类似:早期步骤中已经出现了棋子摆放的大致格局,后续再进行精细调整。

八、"思维链"提示——有时有用,有时白费

在人类解题时,我们经常先在草稿纸上写写画画,理清思路再下笔。受此启发,研究团队还测试了一种叫做"思维链"(Chain-of-Thought,CoT)的提示方式:在让AI作答之前,先要求它在文字中描述自己的推理过程,然后再据此生成图像答案。

结果显示,这种方法对没经过专门训练的模型几乎没有帮助。对于Bagel和Janus-Pro这两款开源模型,在零样本测试中加入思维链提示,PASS@1依然是0。这说明,如果模型本身还没有掌握这类任务的内在逻辑,光靠"先说说自己怎么想的"并不能让它突然开窍。

经过训练之后,思维链提示带来了一点微小的改善。Bagel加上CoT后,迷宫任务的PASS@1从11.54%微升至17.90%(PASS@5则从23.64%微降至18.42%,变化复杂)。这说明模型必须先从训练中内化任务的基本规律,然后才能有效利用显式的推理步骤。就像一个没学过游泳的人,光给他讲再多游泳理论,他依然不会游,必须先下水练过才行。

九、泛化能力测试——在小题上练出来的本领,能用在大题上吗?

仅仅在3×3迷宫上表现好,算不上真正的空间推理能力。研究团队对泛化能力进行了更严格的考察,主要从两个维度展开。

第一个维度是跨几何类型的泛化。在一种形状的迷宫上训练的模型,能不能解另一种形状的迷宫?结果显示,在六边形迷宫上训练的模型泛化效果最好:它在三角形迷宫上的PASS@5达到40.14%,在方形迷宫上达到30%,甚至超过了在这些类型上单独训练的模型。研究团队的解释是:六边形迷宫里有六个方向可以行走,行动空间最大,因此学到的"寻路逻辑"涵盖了方形(四方向)和三角形(三方向)的子集,迁移能力自然最强。

更进一步,在8×8大小的六边形迷宫上训练之后,模型的跨几何泛化能力得到了大幅提升,所有几何类型的PASS@5成绩都远高于在3×3上训练的结果。这说明,接触更复杂的问题能逼迫模型真正学会"规划"的本质,而不仅仅是记住简单图案。

第二个维度是跨规模的泛化。在小规模题目上训练,能解大规模题目吗?答案出乎意料地乐观:仅仅在3×3迷宫上训练的模型,已经能对16×16的大迷宫产生一定的效果。当训练规模扩大到8×8时,泛化到更大规模的能力进一步提升,模型能保持较低的违规率(说明它记住了不能穿墙)。不过,当迷宫规模很大时,模型经常出现"首尾难以为继"的问题——能从起点出发画出一段正确路径,也能在终点附近画出一段正确路径,但中间这两段就是连不起来。路径越长,这种"长程依赖"问题就越严重。

皇后问题在规模泛化上比迷宫更挑剔。在4×4棋盘上训练的模型,对4×4的题目表现完美,但对5×5、6×6的题目完全没有泛化能力——它只是把4×4的解法完整记住了,换个规模就不会了。只有在7×7棋盘上训练之后,才能对其他规模产生有意义的泛化效果。这说明,组合推理问题需要更复杂的训练经历才能建立起"规模无关"的推理能力。

十、多练多学有没有用?数据和算力的扩展效应

数据更多、训练更久,AI的空间推理能力会不会持续提升?研究团队对此进行了系统性测量。

在固定训练步数(1000步)的情况下,把训练数据量从800道题依次翻倍到6400道题。整体趋势是:从800增加到1600时,各任务的成绩有明显提升;但超过1600道之后,增加更多数据带来的收益越来越小,最终接近饱和。皇后问题比迷宫问题从数据量增加中受益更多,因为皇后的答案模式更多样,更多样本确实带来了更丰富的经验。不过,即便数据达到6400道,模型的成绩提升也已经趋于平缓。

在固定训练数据量(6400道)的情况下,把训练步数从500逐渐增加到1000。训练步数增加带来了持续的成绩提升,而且在700步之后提升更加明显:以六边形迷宫为例,从500到700步只提升了6.1%,而从700到1000步提升了15.8%。这种"越到后期越快"的增长趋势让研究团队乐观地推测,继续延长训练可能还会有进一步的收益。

更有意思的是,数据和算力之间存在相互依赖的关系:仅仅增加数据而不增加训练步数,效果有限;仅仅增加训练步数而不增加数据,也会遇到瓶颈。只有数据和算力同步放大,才能获得最好的效果。

十一、和真人比一比——AI的空间推理相当于几岁的孩子?

这个问题大概是整篇研究中最引人好奇的部分。研究团队邀请了三个年龄段各4名真实志愿者——6岁儿童、12岁少年和18岁成人——分别完成8×8、16×16、24×24三种规模的迷宫,以及4×4、7×7、10×10三种规模的皇后题。参与者可以用任意时间在脑子里想好了再动笔,但落笔之后不准擦除或修改,只能一笔画完(这与AI一次生成的规则对应)。研究团队为AI分配了与人类参与者相同的时间预算,AI在规定时间内可以尽量多地尝试生成,最终按成功次数统计成绩。

结论令人深思。随着允许时间增加,人类的成功率持续上升,尤其是成年人在有足够时间思考的情况下,成绩大幅提高。18岁组在225秒内就能对7×7皇后题达到100%成功率。而AI的成绩则几乎不随时间变化——不管给它7.5秒还是225秒,它每次尝试成功的概率是固定的,多给时间只是让它多试了几次,并不能提高单次尝试的质量。

更细致的分析显示,AI在迷宫任务上的表现与18岁成人最相关,但在皇后任务上与6岁儿童最相关。这个对比反映了两类任务的根本差异:迷宫的局部路径规划相对直觉性强,AI经过训练后在这方面已经接近成人水平的相关模式;但皇后问题需要同时满足全局约束,这种"同时考虑所有规则"的能力对AI来说依然非常困难,比它擅长的迷宫差了整整十几年的认知发育差距。

十二、AI犯错的两种方式

研究团队对AI的失败案例进行了归类,发现错误主要分为两大类型。

第一类叫"规则违反":AI画的路径穿越了迷宫的墙壁,或者直接从起点连到终点没有走任何通道;皇后题中则表现为棋子摆放违反了行、列或颜色区域的唯一性要求。这种错误说明AI在"遵守规则"上存在缺陷,对图像结构的理解还不够精确,尤其在复杂几何形状(如圆形、六边形迷宫)中更为突出,因为这些形状的视觉规则与AI训练时见过的常见形状差别较大。

第二类叫"不完整解答":AI画出了路径的一部分就停了,或者只放了一部分棋子。迷宫问题中最典型的表现是:从起点出发画了一段合法路径,但走到中途就停下了,没能到达终点。这在大规模迷宫中特别常见,因为路径越长,AI需要"记住"的中间状态就越多,超出了它的处理能力上限。皇后问题中则是只放了部分棋子就放弃了全局配置。

这两类错误本质上对应了同一个深层问题:AI目前还没有可靠的能力同时维持"局部正确性"和"全局完整性"。局部看起来没问题,但把所有部分拼在一起就不行了。

归根结底,这项研究揭示了一个有点扎心的现实:我们现在最强大的AI图像系统,在"看图解题"这件事上,连一个6岁孩子的直觉都比不上。当然,经过专门训练之后,AI在某些任务上确实取得了令人鼓舞的进步,甚至在简单迷宫上超越了最强的商业闭源模型。但面对稍微复杂一点的皇后问题,或者更大规模的迷宫,AI依然在挣扎。

这并不是说AI一无是处,而是说明了一件重要的事:现有的AI图像编辑模型,学习的是如何"模仿"视觉效果,而不是如何"理解"空间逻辑。人类大脑中有某种专门处理空间关系的神经机制,这让我们在看图时能自然而然地感知连通性、边界、方向感——这种直觉是几十年进化和成长积累下来的,不是靠刷更多图片数据就能轻松复制的。

当然,研究也带来了一些真正值得期待的发现。扩散模型在训练后展现出的"全局先行"解题模式——先模糊地规划整体路径,再逐步细化——与人类的直觉解题方式有几分相似。这暗示着也许未来通过更好的训练方式和模型架构,AI真的有可能培育出更接近人类的空间推理能力。至于那个EAR框架本身,"让AI直接在图上画出答案"这个思路,也为未来的视觉推理研究提供了一条新路线。

对这项研究感兴趣的读者,可以通过arXiv编号2604.22868检索完整论文,或访问项目主页spatigen.github.io/amaze.io/ 了解更多细节和演示案例,代码也已在github.com/spatigen/amaze开源。

Q&A

Q1:EAR框架和普通的AI图像生成有什么区别?

A:普通AI图像生成是从文字描述直接生成一张新图片,而EAR(编辑即推理)框架是给AI一张已有的问题图片(比如迷宫),让AI直接在上面"改图"画出答案,整个解题过程只有一步完成。这种方式更接近人类拿铅笔在纸上解题的方式,能更直接地测试AI是否真正理解了视觉空间关系,而不是靠文字转换来"绕弯子"解决视觉问题。

Q2:AMAZE基准测试具体包含哪些内容?

A:AMAZE基准测试包含两类谜题:迷宫问题(需要画出从起点到终点的路径)和皇后问题(需要在棋盘上满足行列颜色区域唯一性地摆放棋子)。迷宫有方形、六边形、三角形、圆形四种几何类型,规模从3×3到16×16;皇后题规模从4×4到10×10。总计有迷宫题2800道、皇后题350道,全部自动生成并带有唯一正确答案,评分也完全自动化,准确率高达98%。

Q3:为什么扩散模型比自回归模型更擅长视觉规划任务?

A:扩散模型的工作方式是从模糊到清晰地整体细化图像,这使它天然具有"先考虑全局再填充细节"的倾向,与需要统筹全局的空间规划任务非常匹配。相比之下,自回归模型按照固定顺序(比如从左到右)逐步生成图像内容,缺乏对整体结构的同步把握。实验结果也印证了这一点:经过相同训练后,扩散模型Bagel的迷宫成功率比自回归模型Janus-Pro高出整整8个百分点以上。