BIGAI & 中科大团队提出 MILR: 测试时隐空间推理，让图像生成学会「边想边改」丨ICLR 2026|milr|中科大|信号|向量|图像生成|推理|新论文|模态|算法

MILR通过在统一图文潜在空间中进行推理时隐空间推理，在不更新模型参数的情况下同时优化文本和图像表示，显著提升复杂图像生成能力。

图1 MILR的隐空间推理过程。黑色实线表示提取待优化的文本和图像的隐层向量，黑色虚线表示从优化后的潜在向量解码生成结果。

近年来，图像生成经历了从 GAN 到 Diffusion，再到统一多模态模型（MUG, Multimodal Understanding and Generation）的快速发展。然而，大多数图像生成模型仍采用“单次生成”的范式：给定文本指令后直接生成图像，缺乏像大语言模型那样在测试时进行反思、修正和推理的能力。相比之下，大语言模型已经通过推理机制在复杂任务上展现出显著提升。一个自然的问题随之出现：图像生成模型是否也可以在生成过程中进行“推理式改进”？

围绕这一问题，已有工作主要沿着两个方向展开：

1. 在语言空间进行推理：通过改写、扩展或反思 prompt，帮助模型更好地理解用户指令，例如 Reprompt、Reflect-DiT 等方法；

2. 在图像空间进行搜索与筛选：通过多次生成候选图像，并借助评价器或反馈机制选择更优结果，例如 Best-of-N、PARM 或反思式生成方法。

但这些方法通常存在以下局限：

推理发生在单一模态（文本或图像），难以实现文本理解与视觉生成之间的协同。

依赖额外推理数据或重新训练模型，开发成本较高。

计算开销较大，但更多是外部搜索或筛选，并未真正形成模型内部的跨模态推理机制。

为了解决这一问题，来自中国科学技术大学、北京通用人工智能研究院、北京大学、清华大学和 UCLA 的研究团队提出了MILR（Multimodal Image generation via test-time Latent Reasoning）。这项工作的核心问题是：能否不重新训练模型，也不依赖额外推理数据，只在生成时让模型多“想”几步？MILR 通过在测试阶段优化图文统一隐空间 (Latent Space)，直接调整模型内部的图文表示，在不更新参数的前提下改进文本理解与图像结构，从而显著提升复杂指令下的图像生成能力。该论文已被ICLR 2026接收。

论文链接：https://arxiv.org/abs/2509.22761

论文主页：https://spatigen.github.io/milr.io/

论文代码：https://github.com/spatigen/milr

统一隐空间多模态联合推理

MILR 的核心想法很特别：它不直接在文本上推理，也不直接在像素图像上推理，而是在模型内部的统一图文隐空间里推理。可以把图像生成模型想象成一个从文字到图像的复杂流水线。用户输入一句话后，模型会先把文字转成内部表示，再逐步生成图像 token，最后解码成图片。传统方法通常只关注输入和输出：要么改输入 prompt，要么比较输出图片。但 MILR 关注的是中间过程，也就是模型内部那些同时承载文字和图像信息的向量表示。

在统一多模态生成模型(例如Janus-Pro)中，文本 token 和图像 token 都可以被映射到同一个潜在向量空间。MILR 认为这个空间本身就可以成为“推理发生的地方”。也就是说，模型不必显式写出一长串推理过程，也不必盲目生成很多候选图，而是可以在内部连续表示上进行优化，让文本理解和图像结构一起被调整。

论文中将这一过程称为test-time latent reasoning，也就是测试时隐空间推理。它只在推理阶段发生，不改变模型参数。换句话说，MILR 不是重新训练一个更大的模型，而是在已有模型生成图片时，对中间潜在表示进行几轮优化。论文明确指出，梯度只回传到跨模态隐层表示中，也就是模型最后一层的向量中，而不会更新模型权重，因此它是一种真正的test-time推理方法。MILR的方法如图2所示。

图2 MILR框架图。MILR 在统一隐空间中进行测试时隐空间推理；在奖励模型的指导下，它使用策略梯度方法迭代优化文本和图像的潜在表示。奖励模型会根据给定指令对每次生成的图像进行评分。

用奖励信号指导生成，让模型知道哪里需要变好

那么，模型怎么知道自己应该往哪个方向调整？MILR 使用了一个图像质量或图文一致性评价信号作为 reward。简单理解，就是模型先根据当前潜在表示生成图像，再由评价器判断这张图和原始指令是否匹配。如果奖励更高，说明当前方向更好；如果奖励较低，就继续调整潜在表示。技术上，MILR 使用梯度下降REFORENCE算法来优化图文 token 的向量表征。它不是在离散 token 空间中暴力搜索，而是在连续隐空间中寻找更好的表示。这样做有一个直接好处：连续空间更适合梯度优化，也更容易同时调整文本理解和视觉结构。

论文中还特别强调，MILR 不是把所有 token 都一股脑拿来优化。对于文本部分，它只优化一部分前缀 token；对于图像部分，也只优化少量早期 token。这样做是因为早期图像 token 往往决定整体结构，而后续 token 更多影响细节。实验中，研究团队发现优化约 20% 的文本 token 和约 2% 的图像 token，就能取得较好的效果，如图3所示。这也让 MILR 更像是在生成前先调整“思路”和“构图骨架”，而不是事后修修补补。

图3 不同文本和图像优化比例下的 GenEval 得分。

测试性能达到 SOTA，复杂推理任务提升明显

为了验证 MILR 的效果，研究团队在三个常用图像生成基准上进行了测试：GenEval、T2I-CompBench 和 WISE。结果显示，MILR 在三个基准上都取得了最优表现，在GenEval、T2I-CompBench 和 WISE 上均达到SOTA，如表1，表2所示。

在 GenEval 上，MILR 对 Janus-Pro-7B 的提升尤其明显。论文结果显示，Janus-Pro-7B 原始整体分数为 0.78，加入 MILR 后提升到 0.95；其中 Counting 从 0.56 提升到 0.90，Position 从 0.77 提升到 0.98，Attribute Binding 从 0.64 提升到 0.91。这些指标对应的正是图像生成里最容易出错的部分：数量、位置和属性。比如，模型需要知道“三个球”到底是三个，不是两个或四个；需要知道“物体 A 在物体 B 上方”这样的空间关系；还需要把颜色、材质、形状正确绑定到对应对象上。这些能力不是单纯提高图片清晰度就能解决的，而是更接近“理解指令再生成”。在 T2I-CompBench 和 WISE 上，MILR 同样超过了多种非推理模型、训练式推理模型和测试时推理方法。特别是在 WISE 中，MILR 对 base Janus-Pro-7B 的提升达到 80%，也超过了强训练式方法 T2I-R1。研究人员同时做了样例分析如图4所示，说明了MILR的有效性。

图4 MILR定性比较分析。

MILR的Test Time Scaling和奖励模型分析

MILR 的一个重要特点，是可以通过增加测试时计算来提升生成效果。模型不再只是一次性生成图片，而是在潜在空间里进行多轮优化，每多走一步，就多一次修正内部表示的机会。

图5 不同优化步数下，模型在三个基准上的性能表现。

研究团队分析了最大优化步数的影响，结果如图5所示。结果显示，随着优化步数增加，MILR 在多个基准上的表现持续提升，并在约 16 步后逐渐趋于稳定，说明图像生成模型确实可以从测试时计算扩展中受益。

另一方面，MILR 还需要 reward model 来判断生成图像是否更符合指令。直观来说，reward model 就像一个评分器，告诉模型当前生成结果是变好了还是变差了。在标准 benchmark 上，研究团队可以使用 evaluator 作为 OracleReward；但在真实应用中，往往不存在这样一个完美的“标准答案评分器”。因此，论文进一步测试了多种现成 reward model，包括 SelfReward、GPT-4o、UnifiedReward 和 MixedReward，结果如图6所示。

图6 ：使用不同奖励模型时，模型在 GenEval 上的性能表现。

实验结果显示，OracleReward 仍然取得最强表现，这并不意外；但更关键的是，即使使用非 oracle reward model，MILR 的整体表现仍然超过 baseline。在非 oracle 设置下，MixedReward 表现最好，说明当没有完美评价器时，组合多个专用 critic 仍然可以构建出较强的通用奖励信号。更值得注意的是，在计算量相当的条件下，MILR + MixedReward 仍然优于 Best-of-N + MixedReward。这说明 MILR 的提升并不只是因为“试了更多次”，而是因为它在模型内部的图文潜在空间中进行了更主动、更结构化的推理式优化。

未来方向：从“生成图片”走向“推理生成”

当然，MILR 仍然有进一步拓展空间。

1. 当前工作主要基于自回归式统一多模态生成模型实现，而未来一个自然方向，是将这种测试时潜在推理机制扩展到 diffusion-based 多模态模型中。

2. 与此同时，reward model 仍然是影响 MILR 表现的关键因素。在真实应用中很难获得完美 reward，因此设计更通用、更可靠的奖励模型，将是未来提升这类方法的重要方向。

3.除此之外，MILR 也为图像生成模型接入外部知识、世界模型或工具系统提供了新的想象空间。由于它优化的是统一图文潜在表示，未来有望更自然地融合结构化知识、物理约束、空间关系和文化常识。由此看，MILR 的意义不只是提升 benchmark 分数，更在于提出了一条从“一次性作图”走向“测试时推理生成”的新路径。

因此，未来我们不仅要关注模型是否能生成更逼真的图像、说出更流畅的解释，还要进一步追问，它是否能够在图像空间中完成规划、维持约束、形成推理。

作者