UIUC研究团队揭示大模型创造力的真正瓶颈在哪里|知识库|维度|视觉

这项由美国伊利诺伊大学厄巴纳-香槟分校（UIUC）与亚马逊公司联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.26396，感兴趣的读者可通过该编号查询完整原文。

说到"创造力"，你脑海中浮现的大概是艺术家的灵感迸发，或者发明家的奇思妙想。但有一种更接地气的创造力，几乎每个人都在日常生活中不知不觉地用着——那就是"就地取材"的能力。螺丝钉松了，没有改锥，你顺手拿起一枚硬币；信封要封口，没有胶水，你用唾液润湿；开箱子没有刀，你用钥匙的锯齿边缘划开胶带。这种把手边物品"借来一用"的本事，是人类智慧中相当迷人的一面。

那么，如今号称无所不能的大型多模态AI模型（也就是那些能看图、能读文字、能回答复杂问题的AI），能不能做到同样的事情？当一个AI面对一张乱糟糟的房间图片，被问到"没有剪刀，怎么裁剪包装纸"，它能不能看着图里的东西，找到那个真正有用的部件，并说清楚为什么它能派上用场？

UIUC的研究团队对这个问题产生了浓厚的兴趣。他们不仅设计了一套专门测试AI"就地取材"能力的评测系统，还深入分析了AI在这件事上究竟卡在哪里，并提出了一套针对性的训练方法。研究结果既令人清醒，也给出了一条相对明确的改进路径。

一、为什么这种能力比我们以为的更难

要理解这项研究的重要性，得先搞清楚"就地取材"这件事在认知层面到底有多复杂。

心理学上有个概念叫"物体的功能可供性"（affordance），通俗说就是"这个东西能让你做什么"。椅子的功能可供性是"可以坐"，但当你需要够到高处的东西时，椅子的功能可供性就变成了"可以踩着站上去"。这种灵活转换，对人类来说几乎是无意识的，但对AI来说却是巨大的挑战。

原因在于，人类对物体的认知是建立在几十年亲身体验之上的。你知道钥匙有锯齿，是因为你无数次地摸过它；你知道橡皮筋很有弹性，是因为你弹过别人的手背；你知道透明玻璃杯的弯曲弧面能聚光，是因为你可能曾经好奇地拿它对着阳光试过。这些知识是"身体性"的、"情境性"的。

而现有的AI模型，哪怕视觉和语言能力再强，本质上是从海量图文数据中学习模式，缺乏真正的物理世界体验。当它们遇到需要"创造性地重新解读物体功能"的任务时，往往会陷入一种"快速联想"的模式——听起来合理，但实际上没有真正检验物体的具体物理特征。

研究团队把这种倾向比作"系统一"式思维（借用诺贝尔奖得主卡尼曼的框架），也就是那种快速、直觉、依赖经验的判断方式。这种思维在很多情况下够用，但在面对需要仔细检查、逐步排查、最终找到那个"虽然不是常规用途但物理上完全可行"的部件时，就力不从心了。

二、一场专门的"摸底考试"：MM-CreativityBench

为了系统地考察AI的这种能力，研究团队设计了一套他们称为"MM-CreativityBench"的评测基准，这个名字可以理解为"多模态创造力测试台"。

这套测试的核心逻辑非常聪明，可以用一个"反向出题"的方式来理解。通常我们出题是先写一个场景，再找一个答案。但这套测试反过来：先确定答案——某个具体物体的某个具体部件，以及它所具备的某种物理特性——再围绕这个答案设计一道题。这样做的好处是，每道题的"正确答案"有明确的物理依据，不是主观判断，而是从一个经过整理的"物体功能知识库"中严格验证过的事实。

这个知识库收录了大量日常物品，对每个物品进行了细致的"拆解"：它有哪些部件，每个部件有哪些物理属性（比如形状、材质、硬度、表面纹理），以及每个部件在什么条件下能发挥什么样的非常规功能。

以开头那个"用钥匙裁胶带"的例子为例：钥匙这个物体被拆解出"锯齿边缘"这个部件，该部件的属性包括"薄而硬"、"有锋利的凸起"，因此具备"切割软性材料"的功能可供性。题目的设计则是：给定一个场景（比如需要开胶带的包裹），提供一张包含钥匙和其他几个物品的房间图片，让AI找出哪个物体的哪个部件可以用来解决问题。

测试中的"干扰项"设计也相当用心。团队专门挑选了两类容易让AI"踩坑"的干扰物：一类是功能上看起来相似但关键物理属性不符合要求的物体（比如也有边缘但边缘是圆润的），另一类是在场景中很容易出现、但其实根本帮不上忙的物体。这样一来，AI如果只是凭着"这种东西通常能干这个"的经验联想来回答，就会被这些干扰项所迷惑。

测试的评分逻辑也不只看最终答案对不对，还要看AI在找到答案的过程中做了什么。测试设计成了一个"交互式"的探索流程：AI首先看到一张整体场景图，然后可以选择"放大"看某个具体物体，再进一步"放大"看这个物体的某个具体部件。每一步"放大"操作都会返回更清晰的图片和文字描述。最终，AI要说明自己选择了哪个物体的哪个部件，以及为什么它的物理特性能解决当前的问题。

整套测试最终包含333道题用于评测，以及868道题用于后续的模型训练，两个集合之间没有重叠。

三、考试结果出炉：顶尖AI的表现有多糟糕

测试结果相当出人意料，或者说，出乎意料地差。

研究团队把市面上多个主流AI模型都拉来参加了这场考试，其中包括OpenAI的GPT-5.4、GPT-5.4 Mini，阿里的Qwen3-VL（8B和32B版本），以及InternVL3.5和Gemma-4等开源模型。

成绩最好的是Qwen3-VL-32B，它的"完全正确率"（也就是既找到了正确物体又找到了正确部件）是24%。GPT-5.4的完全正确率是19.2%。换句话说，就算是当前最强的商业AI，面对这道"就地取材"的题目，每答五道只能答对不到一道。

更值得关注的是一个细节上的对比数据。大多数AI在"找到正确物体"这件事上做得还不错，但在进一步"找到这个物体的正确部件"上却糟糕得多。举个例子，GPT-5.4在"找对物体"这个层面的准确率是43.5%，但完全正确率只有19.2%——差距将近一半。Qwen3-VL-32B的对应数字是44.7%和24%。这个数据揭示了一个关键问题：AI并非完全不知道该用什么东西，但它不知道应该用这个东西的哪个地方、依据什么物理特性来用它。

另一个有趣的发现是关于"探索数量"的。Qwen系列的模型在测试中平均会查看近五个不同的物体，而GPT-5.4平均只查看不到两个。但更多的查看并没有带来更好的成绩——Qwen3-VL-8B探索的次数远多于GPT-5.4，最终正确率却持平，都是19.2%。这说明，问题不在于"探索得够不够多"，而在于"看到了有用信息之后能不能正确地加以利用"。

四、AI到底卡在哪里：解剖失败模式

研究团队对错误答案进行了系统分类，找出了几种反复出现的失败模式，这部分内容像是在给AI的"考卷"批注错误原因。

最常见的失败类型是"功能可供性判断错误"，也就是AI选了一个物理上根本不适合的部件，或者把这个部件的物理属性搞错了。具体又可以细分为两种：一种是"凭空捏造属性"，比如AI声称某个部件很尖，但实际图片显示它是圆润的；另一种是"形状材质不匹配"，比如AI知道需要一个硬边缘，也找到了有边缘的物体，但没有意识到这个边缘的形状或弹性根本撑不起它声称的用途。

还有一类失败是"只解决了部分问题"。比如，任务需要一个能提供摩擦力同时又足够大的平面，AI可能找到了一个有摩擦力的小橡胶块，但没有意识到"足够大"这个维度上它完全不够格。这种失败的微妙之处在于，AI选出的东西并非毫无道理，只是考虑不够全面。

另外还有两类相对少见但同样重要的失败：一是AI选出的方案需要破坏或拆解物体才能实现，在实际情境中根本不可行；二是AI的方案存在安全风险，比如选了一个可能造成划伤或触电危险的部件。在经过训练之后，这两类失败几乎被完全消除了，这是后续训练方法的成果之一。

还有一个有趣的规律：当场景中的物体具有越来越相似的功能可供性时（也就是干扰项越来越像正确答案时），AI的成绩下降越来越明显。但与此同时，AI进行的探索步骤数量并没有增加。这意味着AI并不会在"觉得难"的时候自动调整策略，更仔细地去检查每个候选物。它只是用同样的力气，做出了更差的判断。

五、一次"教育改革"：如何训练出更会就地取材的AI

发现了问题，研究团队接下来设计了一套针对性的训练方案，名字叫"功能可供性扎根对齐"（affordance-grounded alignment）。这个名字听起来复杂，但核心思想并不难理解。

训练分成两个阶段，可以用"先学走路，再学跑步"来理解。

第一个阶段叫做"有监督微调"（SFT），可以把它理解成"示范教学"。研究团队利用那868道训练题，为每道题构建了一条"示范探索轨迹"——告诉AI在这道题里应该先看哪个物体、再看哪个部件、应该关注哪些属性、应该得出什么结论、最后应该给出什么答案。这些示范轨迹是从知识库中提取正确答案的物理依据，然后用GPT-5.4帮助生成流畅的推理文字，最后把整个探索过程打包成一个完整的"学习样本"。

AI通过模仿这些样本，学会了一种更有条理的探索方式：先看整体场景，找出可能相关的候选物体，依次检查每个物体的关键部件，对比各部件的物理属性，最后综合判断选出最合适的那个。这一阶段让AI的行为变得更加有序，不再像之前那样随意跳跃或反复查看同一个地方。

第二个阶段叫做"直接偏好优化"（DPO），可以理解成"反面教材教学"。光学习正确做法还不够，因为训练里用到的示范轨迹都是在有"参考答案"的情况下生成的，但实际使用时AI没有这个后盾。所以研究团队还专门为每道训练题准备了"错误示范"——有些是普通的错误，比如探索了不重要的部件、选了一个差强人意的答案；有些是更难识别的"精致错误"，比如推理过程听起来头头是道，用词也很专业，但关键的物理属性判断是错的，或者得出的结论从视觉证据上根本找不到支撑。

通过让AI同时看到"正确做法"和"错误做法"，并要求AI学会区分两者、偏向前者，AI逐渐培养出了一种更精细的判断能力：不只是能说出听起来合理的答案，而是能从实际检查到的视觉信息中，找出真正支持某个答案的物理依据，并拒绝那些"表面像但本质不对"的错误选项。

六、训练效果如何：数字背后的故事

训练效果可以用几个数字来说明，但数字本身不是重点，重点是数字背后反映的变化。

以较小的4B版Qwen模型为例。在没有任何训练的情况下，它的完全正确率是15.6%。经过第一阶段（示范教学）之后，提升到了20.4%，进步不大。但在加入第二阶段（反面教材教学）之后，正确率跃升至41.7%——比起原始模型提升了将近170%。8B版的模型从19.2%提升到了39.3%，提升幅度同样超过100%。

同时，训练之后的模型探索效率也大幅提升。4B模型在训练前平均需要约19轮交互操作才能给出答案，训练后缩短到了约6轮。这意味着模型不再"东摸西摸"，而是能够更快速地定位到关键证据，在充分但不浪费的探索之后给出判断。

还有一个技术指标叫做"重复探索率"，也就是AI重复查看同一个已经看过的物体或部件的比例。训练前，4B模型大约47%的探索操作是在重复查看已看过的部件；训练后，这个比例降到了不到10%。这说明模型学会了"记住自己看过了什么"，不再做无用功。

研究团队还发现，示范教学和反面教材教学这两个阶段是互补的，缺一不可。示范教学让模型的探索变得更有条理、更不重复，但探索范围也因此变得更窄，有时会错过真正有用的候选项。加入反面教材教学之后，模型在保持高效的同时，探索的语义密度（也就是探索到的物体和部件与正确答案的相关度）反而提升了。两个阶段一起作用，才能达到最理想的效果。

七、三个真实案例：AI改变了什么

研究团队挑选了三个具体案例来说明训练前后的差异，这些案例非常生动，值得细细品味。

第一个案例是关于"防止浴室挂钩损坏墙漆"的问题。场景是这样的：一个金属毛巾挂钩紧压着浴室墙壁，需要找一个小垫片来防止它损坏油漆。正确答案是浴帘弧形撑杆末端的防滑橡皮头。

未经训练的8B模型看了毛巾的绒毛面之后，立刻认定毛巾是最佳答案——因为毛巾确实很软。但它犯了一个关键错误：它把"软"当成了全部相关属性，完全没有考虑"能不能固定在压力点上"、"会不会移位"等问题。它也从未去看过撑杆的橡皮头。

经过训练的8B模型则表现出了截然不同的思维方式。它同样看了毛巾的绒毛面，但没有就此停下，而是继续探索。它查看了撑杆，发现了防滑橡皮头，检查了它的物理属性（EPDM橡胶材质、柔软、高摩擦、有弹性、体积小），然后在最终答案中做了明确的对比分析：毛巾很软，但橡皮头更小、更耐用、摩擦力更强，且能稳定贴合在压力点上，不会像毛巾那样发生移位或变形。这种推理方式，才是真正建立在物理属性之上的判断。

第二个案例是关于"用什么当包装纸裁切的导尺和衬板"。正确答案是床底收纳箱的硬质盖板。

未经训练的4B模型在这道题上卡了整整50轮交互操作，把大部分时间都花在反复查看一支中性笔的橡皮握手套上。它的逻辑是：握手套有摩擦力，可以防止纸张滑动。但它始终没有意识到，单点摩擦根本无法防止一整张大纸的滑动，更没有提供任何能够沿长边对齐的直边。

经过训练的8B模型则在第一轮就直接选择检查收纳箱，发现了它的盖板，并准确识别出这个半硬质、有内置支撑板、表面光滑的面板同时具备"衬板"和"导边"两种功能，干净利落地解决了问题。

第三个案例是关于"疏通洗手台溢水口里的头发和肥皂堵塞物"。正确答案是电动胡须刀的可调节梳齿。

未经训练的4B和8B模型都犯了同一个错误：它们第一反应是找"锋利的东西"来刮除堵塞物，最终选择了双刃刀片或者胡须刀的切割刀头。这背后有一个先入为主的模式："狭窄开口里有堵塞物，应该用刮的方式处理"。但问题在于，堵塞物是松散的湿发和肥皂，根本不需要切割，而刀刃插入狭窄开口还存在安全风险。

经过训练的4B模型表现出了更细腻的判断。它确实也探索了那个令人"眼馋"的刀片，但在获得反馈之后，它转而去查看胡须刀，然后检查了可调节梳齿。这个梳齿的特点是：硬质塑料、细密的齿、尺寸能够插入狭窄开口、没有锋利的刃，可以像小耙子一样拨动并钩出松散的堵塞物，而不会造成划伤风险。最终，它选择了梳齿，并给出了具体的使用方式：插入溢水口，轻轻来回移动，让齿缝钩住堵塞物，然后用水冲走。

这三个案例清楚地说明，训练带来的改变不是让AI变得"更聪明"了，而是让AI学会了不去依赖第一个看起来合理的联想，而是把物理属性当成真正的判断标准——逐项检查，逐项对比，最后得出有据可查的结论。

八、这项研究的更大意义

研究团队在讨论部分提出了一个值得深思的区分：创造力和幻觉，在这套测试框架里是截然不同的东西。

在文学创作或头脑风暴里，"凭空想象"有时是有价值的——你可以天马行空，越大胆越好。但在"就地取材解决实际问题"这个场景下，凭空捏造物体属性是一种失败，而不是创意。真正的创造力在这里被定义为：基于实际可见的物理证据，发现物体的非常规但确实可行的用途。想法可以新颖，但必须是经得起检验的。

这个区分对未来的具身AI（也就是那些在物理世界中操作机器人或自动化系统的AI）来说尤为重要。一个在虚拟测试中"幻觉"出错误物理属性的AI，只是答了一道错题；但在真实世界中，同样的幻觉可能意味着一只机器手臂用错误的力道夹取了错误的物体，造成实际损坏。

研究团队还指出，现有的标准训练方法往往只奖励"答案对不对"，而忽视了"答案是怎么得到的"。一个通过运气或错误推理得出正确答案的AI，和一个通过系统性视觉检查、物理属性分析最终找到答案的AI，在只看最终结果的评估框架下会得到同样的分数。但实际上，两者的能力差异是天壤之别的。这也是为什么这项研究特别强调"过程"评估的重要性，以及为什么训练方案要针对整条探索轨迹，而不只是最终答案。

归根结底，这项研究说明了一件事：让AI变得真正有用，不只是让它掌握更多知识，更要让它学会如何在真实的、不完整的、充满干扰的环境中，用眼前看到的证据去推理，而不是用记忆里存储的模式去套用。这是从"知识型AI"走向"判断型AI"的关键一步，也是让AI真正能够适应陌生环境、解决意料之外问题的基础能力。

这项研究目前还有一些局限，比如所有图片都是通过AI生成的（而不是真实拍摄的场景），这在一定程度上限制了测试的真实感。但研究团队也坦承，这是出于"控制变量"的考虑——真实照片中物体的遮挡、光线、角度变化会引入太多干扰因素，反而不利于准确测量AI的推理能力本身。未来，将这套测试框架迁移到真实环境拍摄的图像上，将是一个重要的后续方向。

对这项研究有兴趣的读者，可以通过arXiv编号2605.26396找到完整论文，代码和测试数据也已通过论文中的链接公开。

Q&A

Q1：MM-CreativityBench和普通的AI视觉问答测试有什么区别？

A：MM-CreativityBench要求AI不只是识别图片里有什么，而是要找到某个物体的某个具体部件，并基于该部件的真实物理属性（比如形状、材质、弹性）来判断它是否能用于解决特定问题。普通视觉问答通常有标准答案可以套用，而MM-CreativityBench要求AI做"非常规用途"的推理，答案建立在物理证据上而非常识联想上，因此难度和评测维度都更高。

Q2：为什么GPT-5.4这样的顶尖模型在这个测试上表现反而不如开源的Qwen模型？

A：研究结果显示，GPT-5.4的探索次数非常少（平均不到两次），说明它更倾向于快速给出看似合理的答案，而不是耐心检查候选物体的具体部件。Qwen系列模型的探索更广泛，因此更容易找到关键证据。这表明在需要"仔细检查物理细节"的任务上，模型的探索策略比模型的整体规模更重要，单靠扩大模型参数量无法解决这个根本问题。

Q3：训练AI做"就地取材"推理，对普通人的日常生活有什么实际意义？

A：这项能力是让AI真正成为实用助手的基础。当你在家中遇到需要临时替代工具的情况、需要用有限材料完成任务、或者身处不熟悉环境时，一个能够基于实际可见物品进行物理推理的AI助手，才能给出真正可执行的建议，而不是那种"理论上可以但实际上你手边根本没有的"方案。这对未来的家庭机器人、智能助理、以及各类自动化系统的实用性都有直接影响。