打开网易新闻 查看精彩图片

本文第一作者为香港科技大学博士生 陈浩东 和 西北工业大学本科生 尹新祥;通讯作者为香港科技大学教授 陈启峰 和 陈颖聪。

人类在创作艺术时,大脑并非一味地输出,而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。

现有的文生图(T2I)模型虽然强大,但往往表现得像是一个 “像素映射机器”,缺乏人类在创作过程中的动态思考与自我修正能力。虽然目前已有研究通过引入大语言模型(LLM)的推理链(CoT)来辅助生成,但这些方法大多依赖显式推理 —— 即必须把思考过程解码成文字或中间图像,再重新编码。

这种方式不仅效率低下,还会导致信息损耗,更不符合人类的创作直觉。为了打破这一瓶颈,来自香港科技大学的团队提出了 LatentMorph。这是一种全新的框架,它将隐式潜空间推理(Implicit Latent Reasoning)无缝集成到 T2I 生成过程中。它不再需要繁琐的文本解码,而是直接在连续的潜空间中完成 “思考” 与 “修正”,让模型拥有了类似人类的 “创作直觉”。实验结果显示,LatentMorph 显著增强了基座模型 Janus-Pro,在 GenEval 和 T2I-CompBench 上分别提升了16%25%的性能。在复杂的抽象推理任务中,它超越了显式范式11%~15%,同时大幅削减了44%的推理延时与51%的 Token 消耗,并实现了高达71%的人机认知对齐。

打开网易新闻 查看精彩图片

  • 论文题目:Show, Don't Tell: Morphing Latent Reasoning into Image Generation
  • 论文链接:https://arxiv.org/abs/2602.02227
  • 代码连接:https://github.com/EnVision-Research/LatentMorph

背景介绍

在 LatentMorph 提出之前,赋予图像生成模型 “System-2” 推理能力的尝试主要集中在两种范式:

  • 外部循环(External-Loop): 将多模态大模型(MLLM)作为外部优化器,用于精炼提示词、评审输出或迭代编辑图片。
  • 内部循环(Internal-Loop): 在统一多模态模型(UMM)内部交替进行理解分支与生成分支的交互,通常是在预定义的固定步骤进行推理。

尽管这些方法有效,但这些范式普遍依赖将 “想法” 强制压缩进有限的离散文本通道。这种显式做法引发了三大核心缺陷:

1.信息损耗: 自然语言难以精准描述光影、纹理等微妙的视觉逻辑。

2.计算冗余: 频繁的解码 - 重编码循环带来了巨大的推理延迟和 Token 开销。

3.认知失调: 强迫模型在每一笔之前都 “说出” 逻辑,违背了人类直觉式的视觉反馈机制。

打开网易新闻 查看精彩图片

受潜空间推理在语言模型中成功的启发,LatentMorph 应运而生,其核心研究课题在于:如何让模型在生成图像 Token 的同时,动态监控其视觉状态并隐式介入推理并优化?

LatentMorph 方法

LatentMorph 通过四个轻量化组件,共同构成了一个闭环的 “观察 - 决策 - 思考 - 引导” 系统。其中,冷凝器(Condensers)负责将海量生成状态提炼为紧凑的视觉记忆;调用器(Invoker)智能决定何时介入推理;翻译器(Translator)将抽象想法转化为生成指令;而整形器(Shaper)则精准驱动图像 Token 的最终修正。

打开网易新闻 查看精彩图片

2.1 视觉记忆凝结器(Memory Condensers)

为了让推理分支能够理解当前的生成进度,LatentMorph 设计了双重冷凝机制:

打开网易新闻 查看精彩图片

2.2 强化学习驱动的推理调用器 (Reason Invoker)

打开网易新闻 查看精彩图片

  • 语义一致性: 测量当前状态与用户提示词的对齐程度。
  • 预测不确定性: 通过 Token Logits 的熵值捕捉模型的信心水平。
  • 时序动态与稳定性: 监测语义对齐的波动和偏离。

通过强化学习(GRPO)训练,LatentMorph 能够像人类一样,仅在遇到瓶颈或歧义时才激活思考,从而最大化推理效率并避免冗余计算。

2.3 潜空间翻译器 (Latent Translator)

打开网易新闻 查看精彩图片

2.4 潜空间整形器 (Latent Shaper)

打开网易新闻 查看精彩图片

这种注入方式不改动模型权重,也不占用 Token 的预测位置,而是通过修改注意力机制的上下文,潜移默化地引导后续 Token 的预测走向。这使得 LatentMorph 能够实现极致的生成连贯性。

实验分析

LatentMorph 在五个权威基准测试中与十种主流方法进行了全方位对比,结果证明了其范式级的优势。

3.1 忠实度与组合性的新高度

打开网易新闻 查看精彩图片

在通用的 GenEval 和侧重组合能力的 T2I-CompBench 测试中,LatentMorph 表现优异:

  • 相比基座模型 Janus-Pro,LatentMorph 在 GenEval 上提升了16%,在 T2I-CompBench 上提升了25%
  • 在处理复杂的 “非空间属性(Non-Spatial)” 任务时,LatentMorph 超过了领先的显式推理基线 TwiG-RL 达7.28%
  • 定性结果显示,LatentMorph 能有效解决基座模型常见的物体遗漏和属性混淆问题,如精准区分不同物体的颜色与位置。

打开网易新闻 查看精彩图片

3.2 抽象与极限推理能力的验证

打开网易新闻 查看精彩图片

LatentMorph 在处理抽象知识(WISE)和反物理直觉提示词(IPV-Txt)时展现了独特优势:

  • 在 IPV-Txt 基准上,显式文本推理往往受限于语言的表达力,而 LatentMorph 通过连续潜空间保留了关键的、难以言表的视觉线索,性能显著优于所有对比方案。
  • 热力图分析证实,LatentMorph 的潜空间推理能更好地激活图像中细微纹理和光影对应的关注区域。

3.3 极速推理与超低消耗

LatentMorph 彻底终结了 “推理必低效” 的魔咒:

打开网易新闻 查看精彩图片

相比于需要多次全量生成的迭代方法(如 MILR),或受限于文本解码速度的方案(TWIG),LatentMorph 的推理时间减少了44%,Token 消耗降低了51%。这使其成为一种极其经济且可扩展的自回归生成增强方案。

3.4 认知一致性与消歧

打开网易新闻 查看精彩图片

LatentMorph 的调用策略与人类直觉达到了71.8%的对齐度。它表现出一种 “任务复杂度敏感” 的模式:对于简单的提示词仅进行少量干预,而面对复杂的抽象任务则会增加调用频率(在 GenEval 上平均 1.14 次 vs. 在 WISE 上平均 1.60 次)。

打开网易新闻 查看精彩图片

结论

通过 LatentMorph,团队证明了推理增强型模型正从 “显式说理” 向 “隐式直觉” 发生范式转移。

它成功将逻辑思考的深度与生成流程的效率统一在潜空间内,不仅显著提升了模型对复杂、抽象指令的遵循能力,更赋予了 AI 一种类人的创作节奏。正如论文标题所言:“Show, Don't Tell”,真正的智慧往往蕴含在无需言说的潜意识演化之中。

未来,这种潜空间推理框架有望拓展至视频生成、3D 构建等更多高维多模态领域,为构建真正具备自我演化能力的创作型 AI 奠定基础。