达姆施塔特工业大学等机构揭示图像生成模型的多目标生成困境|向量|图像生成|复杂度|实验|样本|达姆施塔特工业大学

这项由德国达姆施塔特工业大学与黑森AI研究中心、德国图宾根大学、英国牛津大学视觉几何研究组以及韩国科学技术院联合开展的研究，以预印本形式于2026年4月30日发布，论文编号为arXiv:2605.00273v1。

你有没有试过让AI图像生成工具画出"三只猫坐在沙发上"，结果得到的却是一只猫、或者四只猫、甚至猫和沙发奇怪地叠在一起的画面？这种令人哭笑不得的情形背后，藏着一个现代AI系统至今仍未完全解决的核心难题。

近年来，以Stable Diffusion、DALL-E等为代表的文字生成图像技术飞速发展，它们能够根据一句描述生成令人叹为观止的照片级画面。然而，当你要求这些系统同时处理多个物体时，它们的表现往往让人大跌眼镜。研究团队的测试显示，这类模型在生成单个物体时准确率超过80%，但一旦涉及多个物体的组合场景，准确率常常跌破50%。简单来说，让AI画一只红苹果，基本没问题；让它画"一只红苹果和一个蓝杯子放在桌子左边"，事情就开始失控了。

这究竟是为什么？研究团队决定像一名侦探一样，系统地追查这个问题的根源。他们的核心怀疑对象是训练数据本身——也就是AI学习的"教科书"。为了验证这个猜想，他们设计了一套精密的实验框架，专门用来控制和观察不同数据条件对AI能力的影响。这套框架被命名为MOSAIC，代表多目标空间关系、属性归因与计数，这三个维度正是多物体生成任务中最常见、也最容易出错的能力类型。

一、从"教科书"说起：训练数据到底藏着什么秘密

要理解AI为什么会在多物体场景中犯错，首先需要搞清楚AI是怎么学习的。这些图像生成模型靠的是海量的"图文配对"数据来训练——也就是大量带有文字描述的图片。模型通过反复观察"这张图片对应这段描述"，逐渐学会如何根据文字指令生成对应的图像。

研究团队首先去检查了目前最主流的训练数据集LAION-2B——这是一个包含约20亿图文配对的巨型数据库，很多主流AI图像生成系统都用它训练过。他们发现了一个很有意思的现象：在这个数据集里，描述"一个物体"的文字配对数量远多于描述"两个物体"的，而"两个"又多于"三个"，以此类推。也就是说，AI在学习过程中见过无数次"一只狗"，但见过"六只狗排成一排"的次数少得可怜。更进一步，他们把LAION-2B中不同数量词出现的频率，与Stable Diffusion 3（一款当前最先进的生成模型）在计数任务上的准确率做了对比，发现两者之间存在明显的相关性——某个数字在训练数据里出现得越少，模型生成那个数量物体时就越容易犯错。

这个发现给了研究团队一个重要线索：数据分布的不均衡，也就是"有些概念出现得多，有些出现得少"，可能是导致AI在多物体生成上表现不佳的原因之一。但仅仅是这一个原因吗？还是说还有其他更深层的机制在作怪？带着这个问题，他们设计了两个核心研究方向：第一，当AI已经在训练中见过所有相关概念，但有些概念见得多、有些见得少时，它的表现会如何？第二，当AI从未见过某些概念的特定组合时，它能不能自己"推理"出来？

二、MOSAIC：为AI设计的"标准化考场"

为了公平、可控地回答这两个问题，研究团队建造了一套专门的实验平台，就像一个专为检测AI能力而设计的标准化考场。MOSAIC框架通过3D渲染技术生成了大量精心设计的图像，每张图像都经过严格的参数控制，确保研究人员能够准确地知道"变量"是什么，从而得出可靠的结论。

这套考场一共设有三个不同的考试科目。第一个科目叫做"属性归因"，考查的是AI能否把颜色属性正确地匹配到对应的物体上。具体做法是：图中有一个球和一个正方体，它们各自有独立的颜色，AI需要根据文字描述正确生成。比如，描述说"黑色的球和蓝色的正方体"，AI生成的图里球就必须是黑色，正方体就必须是蓝色，不能搞反。研究团队使用了10种不同颜色，这意味着球和正方体的颜色组合共有100种可能性，是个相当有挑战性的测试。

第二个科目叫做"空间关系"，考查AI能否准确理解并表现物体之间的位置关系。具体做法是：图中有一个固定的棕色球作为参照物，另一个彩色球被放在参照物的不同方向上——研究团队把360度的圆圈均匀分成10个区域，每个区域对应一种空间关系类别。AI需要根据描述的角度，把第二个球放在正确的位置上。

第三个科目叫做"计数"，也是三个科目里被证明最困难的一个，它考查的是AI能否生成指定数量的物体。图中只有蓝色的球，数量从1个变化到10个，AI需要准确生成被要求数量的球，不多不少。

这三个科目的巧妙之处在于，它们被设计成尽可能排除干扰因素：背景颜色固定，相机角度固定，物体大小固定，唯一在变化的就是被测试的那一个变量。这就好比给一个学生做减法测验，不把他放在嘈杂的操场上，而是在安静的考室里，确保他的分数只反映他的减法能力，而不是受环境干扰。

三、教数据"偏心"究竟影响有多大？

第一个大实验考查的是概念泛化能力——也就是"AI能不能可靠地学会每一个单独的概念"。研究团队准备了两种不同的训练数据分布：一种是"均匀分布"，每种颜色、每个数量、每种角度的训练样本数量都一样多；另一种是"偏斜分布"，模拟真实数据集里的不均衡现象，比如计数任务中数字1和2的样本最多，随着数字增大样本越来越少。此外，他们还用了2千张、1万张、5万张和10万张四种不同规模的训练数据进行实验。

实验结果给出了一个出人意料的答案。对于属性归因和空间关系这两个科目，无论是均匀分布还是偏斜分布，无论数据量是2千还是10万，AI的表现都相当稳定，准确率基本保持在90%以上。也就是说，数据不均衡对这两类任务的影响非常有限，只要AI见过某种颜色或某个角度，它就能学会。

然而，计数任务的情况截然不同。研究人员发现了一个奇特的"V形陷阱"：当训练数据只有2000张时，模型准确率接近完美，这是因为样本太少，模型其实只是在死记硬背，就像学生把答案背下来而不是真正理解了题目；当数据增加到1万张和5万张时，准确率反而大幅下降，跌到了60%-80%左右；只有当数据量达到10万张时，准确率才重新攀升回较高水平。这个倒V形的怪异曲线意味着，在数据量中等的阶段，模型处于一种"死记背不过来，真正理解又没达到"的尴尬中间地带。

四、"记背"与"真懂"之间的危险地带

为了深入理解这个奇特的计数困境，研究团队进一步检查了模型在训练过程中的详细行为，就像一位教师不只看期末考试成绩，还要分析学生平时是靠理解还是靠背题来应付。

他们引入了一个"记忆化率"的指标，用来衡量模型生成的图片和训练图片有多相似——如果一张生成的图片和某张训练图片在像素级别上非常接近，说明模型只是在"复读"，而不是真正学会了如何生成。结果显示，在数据量很少（2000张）时，三个科目的记忆化率都接近100%，这证实了此时的高准确率是靠死记硬背撑起来的。随着数据量增加，记忆化率逐渐下降。但关键的差异在于：对于属性归因和空间关系，当记忆化率下降时，真正的泛化能力接替了记忆化，准确率保持稳定；而对于计数，记忆化能力消退了，但真正的理解能力还没有建立起来，准确率就掉进了这个"真空地带"。

研究团队还观察了训练过程中每一步的准确率变化曲线，这就好比给学生做了全程追踪的学习记录。对于属性归因和空间关系，准确率曲线很快上升并稳定下来；但对于计数，曲线会先升到一个峰值，然后随着训练继续进行而不断下降——即使训练损失（AI自己衡量自己表现的指标）在持续降低，准确率却在恶化。这说明AI在优化一些与"数对了多少个物体"无关的其他方面，而逐渐忘掉了数数这件事。

更细致的分析还揭示了"哪些数字最先崩溃"：在10000张训练数据的条件下，生成1个物体的准确率是100%，生成2-3个物体还勉强可以，但生成6-10个物体的准确率急剧下滑，最低跌到44%。也就是说，越多的物体，越难学会。

五、为什么计数比颜色匹配难那么多？

发现了计数任务的独特困难之后，研究团队开始追问：这到底是计数本身的概念太难，还是因为要生成许多物体时场景本身变得复杂了？这是两个不同的问题，就好比问一个孩子不会做算术，是因为他不理解加减法的概念，还是因为题目太长、他注意力散了？

为了区分这两种可能性，研究团队为属性归因和空间关系任务设计了"复杂版本"——原本这两个任务的图中只有2个物体，研究人员把物体数量增加到最多10个，让场景复杂程度与计数任务相当。结果非常清晰：当场景复杂度增加后，属性归因和空间关系的准确率也出现了明显下降，尽管下降幅度没有计数任务那么剧烈。这证明了"场景复杂度"本身就是一个独立的挑战因素，而不是计数任务的专属难题。

接着，他们又做了一个反向实验：为计数任务设计了"简化版本"，通过在场景中引入一个隐形的"格子"，把每个物体应该放在哪里提前规定好，减少物体位置的随机性，降低场景的空间复杂度。结果同样非常有说服力：引入格子之后，计数准确率在各种数据量和数据分布条件下都大幅提升。这说明计数之所以难，很大程度上是因为当物体数量增加时，如何在空间中合理安排它们变成了一个巨大的挑战，而不仅仅是"记住要画几个"那么简单。

研究团队还深挖了一个有趣的现象：为什么模型的训练损失在下降，但计数准确率反而在恶化？他们检查了模型内部负责处理"条件指令"的嵌入向量——可以把这些向量理解成模型对"要生成几个球"这个指令的内部记忆痕迹。结果发现，当数据量只有1万张时，代表不同数量（1到10）的向量在空间中彼此挤在一起，难以区分，就像一堆密密麻麻的点标在地图上同一个位置；而当数据量达到5万和10万时，这些向量才逐渐分散开来，形成清晰的区分。模型"混淆了"不同数量之间的区别，自然就无法准确生成了。

六、当"从没见过的搭配"出现时，AI能自己推理吗？

研究的第二个大方向考查的是组合泛化能力。这是一个更接近人类直觉的问题：如果你知道"红色"是什么，也知道"苹果"是什么，那么即使你从来没见过"红苹果"，你也能理解并想象出来。AI能做到这一点吗？

研究团队设计了一个精妙的实验结构，利用一个二维的"概念组合矩阵"来控制哪些组合是AI在训练中见过的，哪些是完全陌生的。以计数任务为例，横轴是物体颜色（10种颜色），纵轴是物体数量（1到10个），矩阵中的每个格子代表一种颜色-数量组合。他们的实验策略是"去掉对角线"——比如去掉第一条对角线，意味着（红色-数量1）、（绿色-数量2）……（黑色-数量10）这十种组合在训练时完全没有出现过。去掉的对角线越多，训练中没见过的组合就越多，对AI的挑战就越大。

实验结果揭示了一个令人沮丧的规律：随着越来越多的组合从训练数据中被移除，AI在这些"未见过的组合"上的准确率快速下滑。即使把数据量从1万增加到10万，下滑的趋势依然存在，只是幅度略有减缓。当去掉一半以上的组合（8条对角线）时，AI几乎完全失去了在未见过组合上的表现能力。

不同任务之间，这种崩溃的速度也有所差异。属性归因任务（颜色-颜色组合）的抗崩溃能力最强，因为颜色这个概念相对简单，而且颜色与颜色之间有一定的感知相似性，模型更容易从相邻的已见组合中推理。计数任务居中。而空间关系任务则是最脆弱的——一旦某些角度-颜色的组合没有出现在训练中，模型对那些角度的理解就会全面崩溃，预测结果呈现出杂乱无章的分布，没有任何规律可循。

研究团队还尝试了一个有趣的补救措施：把模型内部处理"指令理解"的部分替换成一个经过专门优化、能够清晰区分不同概念的版本。按照某些理论，如果AI的"理解指令"部分更清晰，组合泛化能力应该会提升。然而实验结果表明，这种替换只带来了边际性的微小改善，组合泛化能力并没有实质性恢复。这说明问题不在于AI"听不懂指令"，而在于AI的图像生成过程本身缺乏把两个概念独立、灵活地组合在一起的机制。

七、这些发现在更真实的场景下还成立吗？

为了确认在高度受控的实验室环境下得出的结论不是"纸上谈兵"，研究团队做了两组额外的验证实验，把实验环境推向更接近真实世界的复杂条件。

第一组实验是在Stable Diffusion 3这款成熟的商用级别生成模型上做微调测试。他们使用了SPEC基准数据集——这是一个包含真实照片的数据集，图片中有各种真实物体、复杂背景和遮挡关系，和MOSAIC的卡通风格3D场景大相径庭。他们用1500对图文数据对SD3进行了微调训练，并观察训练过程中计数和空间关系这两项能力的变化。结果和MOSAIC实验的结论高度一致：随着微调训练的进行，空间关系识别能力稳步提升，生成的图像越来越能正确反映描述中的位置关系；但计数能力在微调过程中持续恶化，生成的图像中物体数量越来越不准确，尽管图片本身看起来很真实。换句话说，让AI"看更多真实照片"对于提高空间关系表达有帮助，但对于计数能力反而起到了反效果。

第二组实验是在"物体共现"场景下测试组合泛化能力。这次，研究团队构建了一个更开放的场景：从10类真实物体（自行车、沙发、椅子、狗、床、笔记本电脑等）中选出两个，生成一张包含这两个物体的图片。训练时，某些物体对从来没有在同一张图中同时出现过，就像你从来没见过"笔记本电脑和马"同框，测试时却要求AI生成这个组合。结果表明，训练时见过的组合生成准确率保持较高，但对于从未见过的组合，准确率随着被移除的组合数量增加而快速下滑，与MOSAIC实验的结论完全吻合。许多时候，AI面对陌生组合时会"选择放弃"，只生成其中一个物体，或者生成一个错误的次要物体来凑数。

八、这告诉我们什么，以及研究的边界在哪里

归根结底，这项研究揭示了当前AI图像生成模型在多目标场景下失败的两个深层原因。其一，场景复杂度本身就是一个巨大挑战，当画面中物体数量增加时，模型需要同时处理的信息呈指数级增长，而它的学习机制并不擅长应对这种情况，除非有足够多的训练样本来"暴力覆盖"所有可能性。其二，组合泛化能力是一种更根本的缺失：模型无法像人类那样把"知道红色"和"知道苹果"这两件事灵活拼起来，去理解从没见过的"红苹果"。

这两个发现共同指向一个结论：仅靠堆更多数据或调整数据分布，并不足以彻底解决多目标生成的失败问题。模型本身的结构需要进行更深层的改变，比如引入能够强制模型学习独立概念的"归纳偏置"，或者在训练时加入专门鼓励组合推理的机制。

当然，这项研究也有它的局限性。实验主要在受控的合成数据集上进行，虽然有部分延伸实验验证了结论的普适性，但和真实世界的海量真实图片场景相比，仍然存在一定的简化。此外，研究聚焦于数据因素，并没有深入探讨模型架构本身的变化对这些问题的影响。研究团队也坦承，他们的目标是找出问题的根源，而不是直接提供一个"解决方案"，如何利用这些发现来改进模型还需要后续工作来回答。

就这项研究来说，它更像是一份详细的"病理报告"，告诉我们AI图像生成在多目标场景下到底病在哪里、病得多重。这份报告本身就已经很有价值——毕竟，只有搞清楚病因，才能开出对症的药方。对于使用AI生成工具的普通用户而言，这意味着下次你发现AI画错了物体数量或颜色归属，不必太惊讶，因为这是它骨子里的学习机制决定的，而不是偶然的失误。而对于研究者而言，这项工作明确指出了一个方向：未来的模型需要在结构层面引入更强的组合推理能力，才能真正征服复杂的多物体场景。如果你对这项研究的细节感兴趣，可以通过arXiv编号2605.00273查阅完整论文。

Q&A

Q1：扩散模型在多目标图像生成中最难学会的是哪种能力？

A：在三类多目标能力中，计数任务被证明是最难学会的。扩散模型在计数上会出现一种奇特的"中间地带崩溃"现象：数据量少时靠死记硬背能应付，数据量大时能真正学会，但在中等数据量阶段，记忆化失效而真正理解未建立，准确率会大幅下降。空间关系任务则在组合泛化场景下最为脆弱，一旦训练数据中缺少某些颜色与角度的组合，模型的表现会毫无规律地崩溃。

Q2：增加训练数据量能解决扩散模型的多目标生成问题吗？

A：仅靠增加数据量并不能根本解决问题。实验表明，数据量增加确实能在一定程度上提升准确率，但对于组合泛化问题（即生成训练中从未出现过的概念组合），即使将数据量从1万增加到10万，准确率的下滑趋势依然存在。当超过一半的概念组合未被观察到时，模型几乎完全失去泛化能力。研究团队认为，模型结构本身需要引入更强的组合推理机制，而不能仅靠堆数据来解决。

Q3：简化空间结构能帮助扩散模型学会计数吗？

A：有明显帮助，但并不能完全解决组合泛化问题。研究团队为计数任务引入了一种"网格布局"，预先规定每个物体的大致位置区域，减少了位置的随机性。在这种设置下，计数准确率在各种数据量条件下都大幅提升，证明空间复杂度是计数困难的重要因素之一。然而，在组合泛化实验中，引入网格布局虽然对计数和空间关系准确率有所改善，但同时导致颜色识别准确率下降，整体表现并未显著优于无网格的设置。