打开网易新闻 查看精彩图片

本文第一作者姚宇轩为复旦大学本科四年级学生,即将在复旦与上海创智学院攻读博士,研究方向为多模态理解生成模型;复旦大学硕士研究生陈宇轩为共同第一作者。复旦大学教授、上海创智学院全时导师朱思语为通讯作者。

近年来,文生图模型的能力快速提升。从 Stable Diffusion 到 FLUX、Qwen-Image,扩散模型已经能够生成高质量图像,也能处理越来越复杂的文本提示。

然而,当提示词中包含多个对象、颜色属性、数量关系或空间位置时,模型仍然经常出现「图不对文」的问题。

打开网易新闻 查看精彩图片

一项来自复旦大学、上海创智学院、上海科学智能研究院等机构的研究指出,这一问题可能来自多模态扩散 Transformer(MMDiT)内部的一种现象:Prompt Forgetting,即提示词遗忘。

研究团队发现,在 MMDiT 的去噪过程中,文本分支中的提示词表示会随着网络层数加深逐渐丢失细粒度语义信息。为此,他们提出了一种无需训练、仅在推理阶段生效的针对性解决方法Prompt Reinjection,通过将浅层文本特征重新注入深层 Transformer 块,缓解提示词信息的逐层衰减问题。

目前,该论文已被 ICML 2026 接收。

打开网易新闻 查看精彩图片

  • 论文标题:Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers
  • 论文地址: https://arxiv.org/abs/2602.06886
  • 代码链接:https://github.com/fudan-generative-vision/PromptReinjection

核心问题:模型不是没理解提示词,而是在深层逐渐「忘了」

传统文生图扩散模型通常将文本作为外部条件,通过 cross-attention 注入图像去噪器。而在 SD3、FLUX、Qwen-Image 等 MMDiT 架构中,文本 token 和图像 latent token 会在统一的 Transformer 堆栈中共同演化。

这种设计带来了更强的跨模态交互能力,但也引入了一个潜在问题:图像 token 受到去噪目标的直接监督,而文本 token 只是通过对图像生成的影响间接更新。换句话说,模型优化的主要目标仍然是图像 latent 空间中的去噪误差,而不是保证文本表示在深层仍然保留完整语义。

研究团队将这一现象定义为Prompt Forgetting:随着网络层数加深,文本分支中原本可恢复的 token 级信息逐渐变得不可恢复。论文通过 CKNNA、PCA 可视化和逐层 probing 实验验证了这一点。

结果显示,在 SD3、SD3.5 和 FLUX 中,文本表示的局部语义结构会随深度逐渐破坏,probe 对名词、形容词、数量词和空间关系等 token 类别的识别准确率也会下降,其中空间关系词受影响最明显。

这也解释了为什么文生图模型常常在「一个物体在另一个物体上方」「A 在 B 的右边」「生成四个对象」这类看似简单的任务中表现不稳定:模型在浅层可能仍然保留这些信息,但到了深层生成阶段,相关语义已经被削弱。

打开网易新闻 查看精彩图片

简单直接缓解遗忘问题:把浅层提示词特征重新注入深层网络

基于这一观察,研究团队提出了Prompt Reinjection。方法非常直接:既然浅层文本特征仍然保留较完整的提示词语义,那么就在推理时把这些浅层特征重新注入到后续深层 MMDiT block 中。

打开网易新闻 查看精彩图片

不过,在有些模型上,直接相加的注入方法并不表现稳定,不同层之间的文本特征可能存在显著的分布差异和几何空间差异,因此论文额外设计了两个对齐模块:

  • 第一是 Distribution Anchoring:它通过归一化和统计量恢复,让浅层特征和目标层特征在数值尺度上更匹配,避免注入后破坏后续 Transformer block 的正常生成分布。
  • 第二是 Geometry Alignment:研究团队使用正交 Procrustes 变换,对浅层和深层文本特征进行几何对齐,使浅层语义能够以更合适的方向进入深层语义空间。

最终,Prompt Reinjection 形成了一种训练无关的推理时增强机制:不需要重新训练模型,也不需要改动模型参数,只需要在生成过程中对文本分支进行轻量干预。

实验结果:增强语义遵循,保持生成质量

研究团队在五个主流 MMDiT 文生图模型上进行了系统评估,包括 SD3-medium、SD3.5-large、FLUX.1-dev、HunyuanImage-2.1 和 Qwen-Image,并在 GenEval、DPG-Bench、T2I-CompBench++ 等多个基准上考察模型的文本 - 图像对齐能力和指令遵循能力。

实验结果显示,Prompt Reinjection 在不同模型和任务上均带来了稳定提升。以 GenEval 为例,SD3.5 和 HunyuanImage-2.1 的整体分数分别提升了 6.48% 和 7.75%。

更值得注意的是,这种提升并非均匀分布在所有子任务上,而是更集中地体现在依赖细粒度文本理解的场景中,例如属性绑定、数量理解、多对象组合以及空间关系建模。尤其是在 GenEval 的 position 任务中,Prompt Reinjection 带来了最明显、最稳定的提升,这与前文 probing 实验中「空间关系词最容易被遗忘」的发现相互印证。

打开网易新闻 查看精彩图片

在视觉质量方面,Prompt Reinjection 并没有以牺牲图像质量为代价来换取更好的语义遵循能力。相反,该方法在 HPSv2、ImageReward、PickScore 和 CLIP 等指标上整体保持稳定,并在部分指标上实现小幅提升。

这表明,Prompt Reinjection 并非只是单纯提升语义遵循基准分数,而是在保持甚至提升视觉质量的同时,使生成结果更加精准,从而具备更强的真实场景应用价值。

打开网易新闻 查看精彩图片

此外,该方法在推理阶段只引入极小的额外开销。

研究团队在 SD3-medium 上的测试表明,基础版 reinjection 几乎不增加计算成本:在不使用 Distribution Anchoring 和 Geometry Alignment 的情况下,其额外 FLOPs 仅约为单个 Transformer block 的「0.00002x」;即便采用完整的对齐版 Prompt Reinjection,额外 FLOPs 也仅约为「0.088x」。

这意味着Prompt Reinjection 可以在几乎不影响推理成本的前提下,提升模型的生成可靠性。

打开网易新闻 查看精彩图片

总结与展望

这项工作的意义并不止于提出一种提升文生图效果的推理时技巧。更重要的是,它揭示了当前 MMDiT 架构中一个容易被忽视的内部机制问题:当文本 token 与图像 token 在同一个 Transformer Backbone 中共同逐层演化时,由于文本分支缺乏直接监督,提示词语义并不一定会在深层表示中保持稳定。

换言之,模型虽然在输入端接收了完整提示词,但在逐层去噪和跨模态交互过程中,部分细粒度语义可能会被逐渐削弱甚至遗忘。

过去许多文生图改进方法主要关注注意力控制、布局约束、偏好优化或训练数据增强,而这篇论文从模型内部的文本 token 演化出发,指出「文本条件在深层是否仍然有效」本身就是影响复杂指令遵循能力的关键因素。Prompt Reinjection 正是基于这一发现提出的轻量化解决方案:通过在推理阶段重新注入浅层文本特征,使模型在不重新训练、不改变参数的情况下,更好地保留数量、颜色属性、空间关系和复杂描述等细粒度信息,同时保持整体图像质量和美观度。

从更长远的角度看,Prompt Reinjection 不仅是一种即插即用的增强方法,也为理解和改进未来扩散生成模型的基础架构提供了有价值的线索。

它表明,当前 MMDiT 架构在跨模态联合建模中仍可能存在文本语义保持不足的问题,而如何在深层网络中持续维护稳定、可用的文本条件,可能成为下一代可控生成模型设计的重要方向。