告别边画边说：LatentMorph 开启视觉生成隐式潜空间推理新范式|推理|新论文|显式|模态|潜空间|视觉生成|边画边说|隐式

本文第一作者为香港科技大学博士生陈浩东和西北工业大学本科生尹新祥；通讯作者为香港科技大学教授陈启峰和陈颖聪。

人类在创作艺术时，大脑并非一味地输出，而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。

现有的文生图（T2I）模型虽然强大，但往往表现得像是一个 “像素映射机器”，缺乏人类在创作过程中的动态思考与自我修正能力。虽然目前已有研究通过引入大语言模型（LLM）的推理链（CoT）来辅助生成，但这些方法大多依赖显式推理 —— 即必须把思考过程解码成文字或中间图像，再重新编码。

这种方式不仅效率低下，还会导致信息损耗，更不符合人类的创作直觉。为了打破这一瓶颈，来自香港科技大学的团队提出了 LatentMorph。这是一种全新的框架，它将隐式潜空间推理（Implicit Latent Reasoning）无缝集成到 T2I 生成过程中。它不再需要繁琐的文本解码，而是直接在连续的潜空间中完成 “思考” 与 “修正”，让模型拥有了类似人类的 “创作直觉”。实验结果显示，LatentMorph 显著增强了基座模型 Janus-Pro，在 GenEval 和 T2I-CompBench 上分别提升了16%25%的性能。在复杂的抽象推理任务中，它超越了显式范式11%~15%，同时大幅削减了44%的推理延时与51%的 Token 消耗，并实现了高达71%的人机认知对齐。

论文题目：Show, Don't Tell: Morphing Latent Reasoning into Image Generation
论文链接：https://arxiv.org/abs/2602.02227
代码连接：https://github.com/EnVision-Research/LatentMorph

背景介绍

在 LatentMorph 提出之前，赋予图像生成模型 “System-2” 推理能力的尝试主要集中在两种范式：

外部循环（External-Loop）：将多模态大模型（MLLM）作为外部优化器，用于精炼提示词、评审输出或迭代编辑图片。
内部循环（Internal-Loop）：在统一多模态模型（UMM）内部交替进行理解分支与生成分支的交互，通常是在预定义的固定步骤进行推理。

尽管这些方法有效，但这些范式普遍依赖将 “想法” 强制压缩进有限的离散文本通道。这种显式做法引发了三大核心缺陷：

1.信息损耗：自然语言难以精准描述光影、纹理等微妙的视觉逻辑。

2.计算冗余：频繁的解码 - 重编码循环带来了巨大的推理延迟和 Token 开销。

3.认知失调：强迫模型在每一笔之前都 “说出” 逻辑，违背了人类直觉式的视觉反馈机制。

受潜空间推理在语言模型中成功的启发，LatentMorph 应运而生，其核心研究课题在于：如何让模型在生成图像 Token 的同时，动态监控其视觉状态并隐式介入推理并优化？

LatentMorph 方法

LatentMorph 通过四个轻量化组件，共同构成了一个闭环的 “观察 - 决策 - 思考 - 引导” 系统。其中，冷凝器（Condensers）负责将海量生成状态提炼为紧凑的视觉记忆；调用器（Invoker）智能决定何时介入推理；翻译器（Translator）将抽象想法转化为生成指令；而整形器（Shaper）则精准驱动图像 Token 的最终修正。