MILR通过在统一图文潜在空间中进行推理时隐空间推理,在不更新模型参数的情况下同时优化文本和图像表示,显著提升复杂图像生成能力。
图1 MILR的隐空间推理过程。黑色实线表示提取待优化的文本和图像的隐层向量,黑色虚线表示从优化后的潜在向量解码生成结果。
近年来,图像生成经历了从 GAN 到 Diffusion,再到统一多模态模型(MUG, Multimodal Understanding and Generation)的快速发展。然而,大多数图像生成模型仍采用“单次生成”的范式:给定文本指令后直接生成图像,缺乏像大语言模型那样在测试时进行反思、修正和推理的能力。相比之下,大语言模型已经通过推理机制在复杂任务上展现出显著提升。一个自然的问题随之出现:图像生成模型是否也可以在生成过程中进行“推理式改进”?
围绕这一问题,已有工作主要沿着两个方向展开:
1. 在语言空间进行推理:通过改写、扩展或反思 prompt,帮助模型更好地理解用户指令,例如 Reprompt、Reflect-DiT 等方法;
2. 在图像空间进行搜索与筛选:通过多次生成候选图像,并借助评价器或反馈机制选择更优结果,例如 Best-of-N、PARM 或反思式生成方法。
但这些方法通常存在以下局限:
推理发生在单一模态(文本或图像),难以实现文本理解与视觉生成之间的协同。
依赖额外推理数据或重新训练模型,开发成本较高。
计算开销较大,但更多是外部搜索或筛选,并未真正形成模型内部的跨模态推理机制。
为了解决这一问题,来自中国科学技术大学、北京通用人工智能研究院、北京大学、清华大学和 UCLA 的研究团队提出了MILR(Multimodal Image generation via test-time Latent Reasoning)。这项工作的核心问题是:能否不重新训练模型,也不依赖额外推理数据,只在生成时让模型多“想”几步?MILR 通过在测试阶段优化图文统一隐空间 (Latent Space),直接调整模型内部的图文表示,在不更新参数的前提下改进文本理解与图像结构,从而显著提升复杂指令下的图像生成能力。该论文已被ICLR 2026接收。
论文链接:https://arxiv.org/abs/2509.22761
论文主页:https://spatigen.github.io/milr.io/
论文代码:https://github.com/spatigen/milr
01
统一隐空间多模态联合推理
MILR 的核心想法很特别:它不直接在文本上推理,也不直接在像素图像上推理,而是在模型内部的统一图文隐空间里推理。可以把图像生成模型想象成一个从文字到图像的复杂流水线。用户输入一句话后,模型会先把文字转成内部表示,再逐步生成图像 token,最后解码成图片。传统方法通常只关注输入和输出:要么改输入 prompt,要么比较输出图片。但 MILR 关注的是中间过程,也就是模型内部那些同时承载文字和图像信息的向量表示。
在统一多模态生成模型(例如Janus-Pro)中,文本 token 和图像 token 都可以被映射到同一个潜在向量空间。MILR 认为这个空间本身就可以成为“推理发生的地方”。也就是说,模型不必显式写出一长串推理过程,也不必盲目生成很多候选图,而是可以在内部连续表示上进行优化,让文本理解和图像结构一起被调整。
论文中将这一过程称为test-time latent reasoning,也就是测试时隐空间推理。它只在推理阶段发生,不改变模型参数。换句话说,MILR 不是重新训练一个更大的模型,而是在已有模型生成图片时,对中间潜在表示进行几轮优化。论文明确指出,梯度只回传到跨模态隐层表示中,也就是模型最后一层的向量中,而不会更新模型权重,因此它是一种真正的test-time推理方法。MILR的方法如图2所示。
图2 MILR框架图。MILR 在统一隐空间中进行测试时隐空间推理;在奖励模型的指导下,它使用策略梯度方法迭代优化文本和图像的潜在表示。奖励模型会根据给定指令对每次生成的图像进行评分。
02
用奖励信号指导生成,让模型知道哪里需要变好
那么,模型怎么知道自己应该往哪个方向调整?MILR 使用了一个图像质量或图文一致性评价信号作为 reward。简单理解,就是模型先根据当前潜在表示生成图像,再由评价器判断这张图和原始指令是否匹配。如果奖励更高,说明当前方向更好;如果奖励较低,就继续调整潜在表示。技术上,MILR 使用梯度下降REFORENCE算法来优化图文 token 的向量表征。它不是在离散 token 空间中暴力搜索,而是在连续隐空间中寻找更好的表示。这样做有一个直接好处:连续空间更适合梯度优化,也更容易同时调整文本理解和视觉结构。
论文中还特别强调,MILR 不是把所有 token 都一股脑拿来优化。对于文本部分,它只优化一部分前缀 token;对于图像部分,也只优化少量早期 token。这样做是因为早期图像 token 往往决定整体结构,而后续 token 更多影响细节。实验中,研究团队发现优化约 20% 的文本 token 和约 2% 的图像 token,就能取得较好的效果,如图3所示。这也让 MILR 更像是在生成前先调整“思路”和“构图骨架”,而不是事后修修补补。
图3 不同文本和图像优化比例下的 GenEval 得分。
03
测试性能达到 SOTA,复杂推理任务提升明显
为了验证 MILR 的效果,研究团队在三个常用图像生成基准上进行了测试:GenEval、T2I-CompBench 和 WISE。结果显示,MILR 在三个基准上都取得了最优表现,在GenEval、T2I-CompBench 和 WISE 上均达到SOTA,如表1,表2所示。
在 GenEval 上,MILR 对 Janus-Pro-7B 的提升尤其明显。论文结果显示,Janus-Pro-7B 原始整体分数为 0.78,加入 MILR 后提升到 0.95;其中 Counting 从 0.56 提升到 0.90,Position 从 0.77 提升到 0.98,Attribute Binding 从 0.64 提升到 0.91。这些指标对应的正是图像生成里最容易出错的部分:数量、位置和属性。比如,模型需要知道“三个球”到底是三个,不是两个或四个;需要知道“物体 A 在物体 B 上方”这样的空间关系;还需要把颜色、材质、形状正确绑定到对应对象上。这些能力不是单纯提高图片清晰度就能解决的,而是更接近“理解指令再生成”。 在 T2I-CompBench 和 WISE 上,MILR 同样超过了多种非推理模型、训练式推理模型和测试时推理方法。特别是在 WISE 中,MILR 对 base Janus-Pro-7B 的提升达到 80%,也超过了强训练式方法 T2I-R1。研究人员同时做了样例分析如图4所示,说明了MILR的有效性。
图4 MILR定性比较分析。
04
MILR的Test Time Scaling和奖励模型分析
MILR 的一个重要特点,是可以通过增加测试时计算来提升生成效果。模型不再只是一次性生成图片,而是在潜在空间里进行多轮优化,每多走一步,就多一次修正内部表示的机会。
图5 不同优化步数下,模型在三个基准上的性能表现。
研究团队分析了最大优化步数的影响,结果如图5所示。结果显示,随着优化步数增加,MILR 在多个基准上的表现持续提升,并在约 16 步后逐渐趋于稳定,说明图像生成模型确实可以从测试时计算扩展中受益。
另一方面,MILR 还需要 reward model 来判断生成图像是否更符合指令。直观来说,reward model 就像一个评分器,告诉模型当前生成结果是变好了还是变差了。在标准 benchmark 上,研究团队可以使用 evaluator 作为 OracleReward;但在真实应用中,往往不存在这样一个完美的“标准答案评分器”。因此,论文进一步测试了多种现成 reward model,包括 SelfReward、GPT-4o、UnifiedReward 和 MixedReward,结果如图6所示。
图6 :使用不同奖励模型时,模型在 GenEval 上的性能表现。
实验结果显示,OracleReward 仍然取得最强表现,这并不意外;但更关键的是,即使使用非 oracle reward model,MILR 的整体表现仍然超过 baseline。在非 oracle 设置下,MixedReward 表现最好,说明当没有完美评价器时,组合多个专用 critic 仍然可以构建出较强的通用奖励信号。更值得注意的是,在计算量相当的条件下,MILR + MixedReward 仍然优于 Best-of-N + MixedReward。这说明 MILR 的提升并不只是因为“试了更多次”,而是因为它在模型内部的图文潜在空间中进行了更主动、更结构化的推理式优化。
05
未来方向:从“生成图片”走向“推理生成”
当然,MILR 仍然有进一步拓展空间。
1. 当前工作主要基于自回归式统一多模态生成模型实现,而未来一个自然方向,是将这种测试时潜在推理机制扩展到 diffusion-based 多模态模型中。
2. 与此同时,reward model 仍然是影响 MILR 表现的关键因素。在真实应用中很难获得完美 reward,因此设计更通用、更可靠的奖励模型,将是未来提升这类方法的重要方向。
3.除此之外,MILR 也为图像生成模型接入外部知识、世界模型或工具系统提供了新的想象空间。由于它优化的是统一图文潜在表示,未来有望更自然地融合结构化知识、物理约束、空间关系和文化常识。由此看,MILR 的意义不只是提升 benchmark 分数,更在于提出了一条从“一次性作图”走向“测试时推理生成”的新路径。
因此,未来我们不仅要关注模型是否能生成更逼真的图像、说出更流畅的解释,还要进一步追问,它是否能够在图像空间中完成规划、维持约束、形成推理。
06
作者
米亚鹏,论文第一作者,就读于中国科学技术大学博士一年级。其主要研究方向为多模态理解与生成、智能体,围绕多模态模型、智能体决策与生成式模型等方向在 ICLR、NeurIPS 等国际顶级会议发表论文。现师从王杰老师攻读博士学位。
——本篇文章论文作者拥有所有权,转载请联系论文作者
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴