这项由德国达姆施塔特工业大学与黑森AI研究中心、德国图宾根大学、英国牛津大学视觉几何研究组以及韩国科学技术院联合开展的研究,以预印本形式于2026年4月30日发布,论文编号为arXiv:2605.00273v1。
你有没有试过让AI图像生成工具画出"三只猫坐在沙发上",结果得到的却是一只猫、或者四只猫、甚至猫和沙发奇怪地叠在一起的画面?这种令人哭笑不得的情形背后,藏着一个现代AI系统至今仍未完全解决的核心难题。
近年来,以Stable Diffusion、DALL-E等为代表的文字生成图像技术飞速发展,它们能够根据一句描述生成令人叹为观止的照片级画面。然而,当你要求这些系统同时处理多个物体时,它们的表现往往让人大跌眼镜。研究团队的测试显示,这类模型在生成单个物体时准确率超过80%,但一旦涉及多个物体的组合场景,准确率常常跌破50%。简单来说,让AI画一只红苹果,基本没问题;让它画"一只红苹果和一个蓝杯子放在桌子左边",事情就开始失控了。
这究竟是为什么?研究团队决定像一名侦探一样,系统地追查这个问题的根源。他们的核心怀疑对象是训练数据本身——也就是AI学习的"教科书"。为了验证这个猜想,他们设计了一套精密的实验框架,专门用来控制和观察不同数据条件对AI能力的影响。这套框架被命名为MOSAIC,代表多目标空间关系、属性归因与计数,这三个维度正是多物体生成任务中最常见、也最容易出错的能力类型。
一、从"教科书"说起:训练数据到底藏着什么秘密
要理解AI为什么会在多物体场景中犯错,首先需要搞清楚AI是怎么学习的。这些图像生成模型靠的是海量的"图文配对"数据来训练——也就是大量带有文字描述的图片。模型通过反复观察"这张图片对应这段描述",逐渐学会如何根据文字指令生成对应的图像。
研究团队首先去检查了目前最主流的训练数据集LAION-2B——这是一个包含约20亿图文配对的巨型数据库,很多主流AI图像生成系统都用它训练过。他们发现了一个很有意思的现象:在这个数据集里,描述"一个物体"的文字配对数量远多于描述"两个物体"的,而"两个"又多于"三个",以此类推。也就是说,AI在学习过程中见过无数次"一只狗",但见过"六只狗排成一排"的次数少得可怜。更进一步,他们把LAION-2B中不同数量词出现的频率,与Stable Diffusion 3(一款当前最先进的生成模型)在计数任务上的准确率做了对比,发现两者之间存在明显的相关性——某个数字在训练数据里出现得越少,模型生成那个数量物体时就越容易犯错。
这个发现给了研究团队一个重要线索:数据分布的不均衡,也就是"有些概念出现得多,有些出现得少",可能是导致AI在多物体生成上表现不佳的原因之一。但仅仅是这一个原因吗?还是说还有其他更深层的机制在作怪?带着这个问题,他们设计了两个核心研究方向:第一,当AI已经在训练中见过所有相关概念,但有些概念见得多、有些见得少时,它的表现会如何?第二,当AI从未见过某些概念的特定组合时,它能不能自己"推理"出来?
二、MOSAIC:为AI设计的"标准化考场"
为了公平、可控地回答这两个问题,研究团队建造了一套专门的实验平台,就像一个专为检测AI能力而设计的标准化考场。MOSAIC框架通过3D渲染技术生成了大量精心设计的图像,每张图像都经过严格的参数控制,确保研究人员能够准确地知道"变量"是什么,从而得出可靠的结论。
这套考场一共设有三个不同的考试科目。第一个科目叫做"属性归因",考查的是AI能否把颜色属性正确地匹配到对应的物体上。具体做法是:图中有一个球和一个正方体,它们各自有独立的颜色,AI需要根据文字描述正确生成。比如,描述说"黑色的球和蓝色的正方体",AI生成的图里球就必须是黑色,正方体就必须是蓝色,不能搞反。研究团队使用了10种不同颜色,这意味着球和正方体的颜色组合共有100种可能性,是个相当有挑战性的测试。
第二个科目叫做"空间关系",考查AI能否准确理解并表现物体之间的位置关系。具体做法是:图中有一个固定的棕色球作为参照物,另一个彩色球被放在参照物的不同方向上——研究团队把360度的圆圈均匀分成10个区域,每个区域对应一种空间关系类别。AI需要根据描述的角度,把第二个球放在正确的位置上。
第三个科目叫做"计数",也是三个科目里被证明最困难的一个,它考查的是AI能否生成指定数量的物体。图中只有蓝色的球,数量从1个变化到10个,AI需要准确生成被要求数量的球,不多不少。
这三个科目的巧妙之处在于,它们被设计成尽可能排除干扰因素:背景颜色固定,相机角度固定,物体大小固定,唯一在变化的就是被测试的那一个变量。这就好比给一个学生做减法测验,不把他放在嘈杂的操场上,而是在安静的考室里,确保他的分数只反映他的减法能力,而不是受环境干扰。
三、教数据"偏心"究竟影响有多大?
第一个大实验考查的是概念泛化能力——也就是"AI能不能可靠地学会每一个单独的概念"。研究团队准备了两种不同的训练数据分布:一种是"均匀分布",每种颜色、每个数量、每种角度的训练样本数量都一样多;另一种是"偏斜分布",模拟真实数据集里的不均衡现象,比如计数任务中数字1和2的样本最多,随着数字增大样本越来越少。此外,他们还用了2千张、1万张、5万张和10万张四种不同规模的训练数据进行实验。
实验结果给出了一个出人意料的答案。对于属性归因和空间关系这两个科目,无论是均匀分布还是偏斜分布,无论数据量是2千还是10万,AI的表现都相当稳定,准确率基本保持在90%以上。也就是说,数据不均衡对这两类任务的影响非常有限,只要AI见过某种颜色或某个角度,它就能学会。
然而,计数任务的情况截然不同。研究人员发现了一个奇特的"V形陷阱":当训练数据只有2000张时,模型准确率接近完美,这是因为样本太少,模型其实只是在死记硬背,就像学生把答案背下来而不是真正理解了题目;当数据增加到1万张和5万张时,准确率反而大幅下降,跌到了60%-80%左右;只有当数据量达到10万张时,准确率才重新攀升回较高水平。这个倒V形的怪异曲线意味着,在数据量中等的阶段,模型处于一种"死记背不过来,真正理解又没达到"的尴尬中间地带。
四、"记背"与"真懂"之间的危险地带
为了深入理解这个奇特的计数困境,研究团队进一步检查了模型在训练过程中的详细行为,就像一位教师不只看期末考试成绩,还要分析学生平时是靠理解还是靠背题来应付。
他们引入了一个"记忆化率"的指标,用来衡量模型生成的图片和训练图片有多相似——如果一张生成的图片和某张训练图片在像素级别上非常接近,说明模型只是在"复读",而不是真正学会了如何生成。结果显示,在数据量很少(2000张)时,三个科目的记忆化率都接近100%,这证实了此时的高准确率是靠死记硬背撑起来的。随着数据量增加,记忆化率逐渐下降。但关键的差异在于:对于属性归因和空间关系,当记忆化率下降时,真正的泛化能力接替了记忆化,准确率保持稳定;而对于计数,记忆化能力消退了,但真正的理解能力还没有建立起来,准确率就掉进了这个"真空地带"。
研究团队还观察了训练过程中每一步的准确率变化曲线,这就好比给学生做了全程追踪的学习记录。对于属性归因和空间关系,准确率曲线很快上升并稳定下来;但对于计数,曲线会先升到一个峰值,然后随着训练继续进行而不断下降——即使训练损失(AI自己衡量自己表现的指标)在持续降低,准确率却在恶化。这说明AI在优化一些与"数对了多少个物体"无关的其他方面,而逐渐忘掉了数数这件事。
更细致的分析还揭示了"哪些数字最先崩溃":在10000张训练数据的条件下,生成1个物体的准确率是100%,生成2-3个物体还勉强可以,但生成6-10个物体的准确率急剧下滑,最低跌到44%。也就是说,越多的物体,越难学会。
五、为什么计数比颜色匹配难那么多?
发现了计数任务的独特困难之后,研究团队开始追问:这到底是计数本身的概念太难,还是因为要生成许多物体时场景本身变得复杂了?这是两个不同的问题,就好比问一个孩子不会做算术,是因为他不理解加减法的概念,还是因为题目太长、他注意力散了?
为了区分这两种可能性,研究团队为属性归因和空间关系任务设计了"复杂版本"——原本这两个任务的图中只有2个物体,研究人员把物体数量增加到最多10个,让场景复杂程度与计数任务相当。结果非常清晰:当场景复杂度增加后,属性归因和空间关系的准确率也出现了明显下降,尽管下降幅度没有计数任务那么剧烈。这证明了"场景复杂度"本身就是一个独立的挑战因素,而不是计数任务的专属难题。
接着,他们又做了一个反向实验:为计数任务设计了"简化版本",通过在场景中引入一个隐形的"格子",把每个物体应该放在哪里提前规定好,减少物体位置的随机性,降低场景的空间复杂度。结果同样非常有说服力:引入格子之后,计数准确率在各种数据量和数据分布条件下都大幅提升。这说明计数之所以难,很大程度上是因为当物体数量增加时,如何在空间中合理安排它们变成了一个巨大的挑战,而不仅仅是"记住要画几个"那么简单。
研究团队还深挖了一个有趣的现象:为什么模型的训练损失在下降,但计数准确率反而在恶化?他们检查了模型内部负责处理"条件指令"的嵌入向量——可以把这些向量理解成模型对"要生成几个球"这个指令的内部记忆痕迹。结果发现,当数据量只有1万张时,代表不同数量(1到10)的向量在空间中彼此挤在一起,难以区分,就像一堆密密麻麻的点标在地图上同一个位置;而当数据量达到5万和10万时,这些向量才逐渐分散开来,形成清晰的区分。模型"混淆了"不同数量之间的区别,自然就无法准确生成了。
六、当"从没见过的搭配"出现时,AI能自己推理吗?
研究的第二个大方向考查的是组合泛化能力。这是一个更接近人类直觉的问题:如果你知道"红色"是什么,也知道"苹果"是什么,那么即使你从来没见过"红苹果",你也能理解并想象出来。AI能做到这一点吗?
研究团队设计了一个精妙的实验结构,利用一个二维的"概念组合矩阵"来控制哪些组合是AI在训练中见过的,哪些是完全陌生的。以计数任务为例,横轴是物体颜色(10种颜色),纵轴是物体数量(1到10个),矩阵中的每个格子代表一种颜色-数量组合。他们的实验策略是"去掉对角线"——比如去掉第一条对角线,意味着(红色-数量1)、(绿色-数量2)……(黑色-数量10)这十种组合在训练时完全没有出现过。去掉的对角线越多,训练中没见过的组合就越多,对AI的挑战就越大。
实验结果揭示了一个令人沮丧的规律:随着越来越多的组合从训练数据中被移除,AI在这些"未见过的组合"上的准确率快速下滑。即使把数据量从1万增加到10万,下滑的趋势依然存在,只是幅度略有减缓。当去掉一半以上的组合(8条对角线)时,AI几乎完全失去了在未见过组合上的表现能力。
不同任务之间,这种崩溃的速度也有所差异。属性归因任务(颜色-颜色组合)的抗崩溃能力最强,因为颜色这个概念相对简单,而且颜色与颜色之间有一定的感知相似性,模型更容易从相邻的已见组合中推理。计数任务居中。而空间关系任务则是最脆弱的——一旦某些角度-颜色的组合没有出现在训练中,模型对那些角度的理解就会全面崩溃,预测结果呈现出杂乱无章的分布,没有任何规律可循。
研究团队还尝试了一个有趣的补救措施:把模型内部处理"指令理解"的部分替换成一个经过专门优化、能够清晰区分不同概念的版本。按照某些理论,如果AI的"理解指令"部分更清晰,组合泛化能力应该会提升。然而实验结果表明,这种替换只带来了边际性的微小改善,组合泛化能力并没有实质性恢复。这说明问题不在于AI"听不懂指令",而在于AI的图像生成过程本身缺乏把两个概念独立、灵活地组合在一起的机制。
七、这些发现在更真实的场景下还成立吗?
为了确认在高度受控的实验室环境下得出的结论不是"纸上谈兵",研究团队做了两组额外的验证实验,把实验环境推向更接近真实世界的复杂条件。
第一组实验是在Stable Diffusion 3这款成熟的商用级别生成模型上做微调测试。他们使用了SPEC基准数据集——这是一个包含真实照片的数据集,图片中有各种真实物体、复杂背景和遮挡关系,和MOSAIC的卡通风格3D场景大相径庭。他们用1500对图文数据对SD3进行了微调训练,并观察训练过程中计数和空间关系这两项能力的变化。结果和MOSAIC实验的结论高度一致:随着微调训练的进行,空间关系识别能力稳步提升,生成的图像越来越能正确反映描述中的位置关系;但计数能力在微调过程中持续恶化,生成的图像中物体数量越来越不准确,尽管图片本身看起来很真实。换句话说,让AI"看更多真实照片"对于提高空间关系表达有帮助,但对于计数能力反而起到了反效果。
第二组实验是在"物体共现"场景下测试组合泛化能力。这次,研究团队构建了一个更开放的场景:从10类真实物体(自行车、沙发、椅子、狗、床、笔记本电脑等)中选出两个,生成一张包含这两个物体的图片。训练时,某些物体对从来没有在同一张图中同时出现过,就像你从来没见过"笔记本电脑和马"同框,测试时却要求AI生成这个组合。结果表明,训练时见过的组合生成准确率保持较高,但对于从未见过的组合,准确率随着被移除的组合数量增加而快速下滑,与MOSAIC实验的结论完全吻合。许多时候,AI面对陌生组合时会"选择放弃",只生成其中一个物体,或者生成一个错误的次要物体来凑数。
八、这告诉我们什么,以及研究的边界在哪里
归根结底,这项研究揭示了当前AI图像生成模型在多目标场景下失败的两个深层原因。其一,场景复杂度本身就是一个巨大挑战,当画面中物体数量增加时,模型需要同时处理的信息呈指数级增长,而它的学习机制并不擅长应对这种情况,除非有足够多的训练样本来"暴力覆盖"所有可能性。其二,组合泛化能力是一种更根本的缺失:模型无法像人类那样把"知道红色"和"知道苹果"这两件事灵活拼起来,去理解从没见过的"红苹果"。
这两个发现共同指向一个结论:仅靠堆更多数据或调整数据分布,并不足以彻底解决多目标生成的失败问题。模型本身的结构需要进行更深层的改变,比如引入能够强制模型学习独立概念的"归纳偏置",或者在训练时加入专门鼓励组合推理的机制。
当然,这项研究也有它的局限性。实验主要在受控的合成数据集上进行,虽然有部分延伸实验验证了结论的普适性,但和真实世界的海量真实图片场景相比,仍然存在一定的简化。此外,研究聚焦于数据因素,并没有深入探讨模型架构本身的变化对这些问题的影响。研究团队也坦承,他们的目标是找出问题的根源,而不是直接提供一个"解决方案",如何利用这些发现来改进模型还需要后续工作来回答。
就这项研究来说,它更像是一份详细的"病理报告",告诉我们AI图像生成在多目标场景下到底病在哪里、病得多重。这份报告本身就已经很有价值——毕竟,只有搞清楚病因,才能开出对症的药方。对于使用AI生成工具的普通用户而言,这意味着下次你发现AI画错了物体数量或颜色归属,不必太惊讶,因为这是它骨子里的学习机制决定的,而不是偶然的失误。而对于研究者而言,这项工作明确指出了一个方向:未来的模型需要在结构层面引入更强的组合推理能力,才能真正征服复杂的多物体场景。如果你对这项研究的细节感兴趣,可以通过arXiv编号2605.00273查阅完整论文。
Q&A
Q1:扩散模型在多目标图像生成中最难学会的是哪种能力?
A:在三类多目标能力中,计数任务被证明是最难学会的。扩散模型在计数上会出现一种奇特的"中间地带崩溃"现象:数据量少时靠死记硬背能应付,数据量大时能真正学会,但在中等数据量阶段,记忆化失效而真正理解未建立,准确率会大幅下降。空间关系任务则在组合泛化场景下最为脆弱,一旦训练数据中缺少某些颜色与角度的组合,模型的表现会毫无规律地崩溃。
Q2:增加训练数据量能解决扩散模型的多目标生成问题吗?
A:仅靠增加数据量并不能根本解决问题。实验表明,数据量增加确实能在一定程度上提升准确率,但对于组合泛化问题(即生成训练中从未出现过的概念组合),即使将数据量从1万增加到10万,准确率的下滑趋势依然存在。当超过一半的概念组合未被观察到时,模型几乎完全失去泛化能力。研究团队认为,模型结构本身需要引入更强的组合推理机制,而不能仅靠堆数据来解决。
Q3:简化空间结构能帮助扩散模型学会计数吗?
A:有明显帮助,但并不能完全解决组合泛化问题。研究团队为计数任务引入了一种"网格布局",预先规定每个物体的大致位置区域,减少了位置的随机性。在这种设置下,计数准确率在各种数据量条件下都大幅提升,证明空间复杂度是计数困难的重要因素之一。然而,在组合泛化实验中,引入网格布局虽然对计数和空间关系准确率有所改善,但同时导致颜色识别准确率下降,整体表现并未显著优于无网格的设置。
热门跟贴