激发多模态智能体决策潜力！清华&北大&腾讯联合提出GTR训练框架|gtr|大模型|实验|智能体|模态|知名企业|腾讯

论文第一作者为魏彤，清华大学在读博士生，研究方向为大模型智能体和强化学习，导师为清华大学兴军亮、史元春；共同一作为腾讯杨一君；合作者为北京大学卢宗青；通讯作者为叶德珩。

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）能够在大语言模型（LLMs）上有效提升思维链（Chain-of-Thought, CoT）决策的能力。然而对于多模态大模型（VLM）智能体的目标导向的动作推理任务，强化学习在复杂问题上并不能很好地提升决策能力，甚至会导致思维过程的退化。

来自清华、北大和腾讯的研究团队深入研究了这一“思维崩塌”（thought collapse）的现象，发现由于模型训练的反馈仅依赖于最终动作，RL 训练无法有效约束 CoT 思维过程，导致 VLM 智能体思维退化，丧失多样性，并输出不一致和不完整的思路。

为了对抗思维崩塌，研究团队提出思维引导的强化学习（Guided Thought Reinforcement, GTR）框架，通过自动化修正器提供过程引导，在 RL 训练中实时优化模型的思路，且无需依赖人类的精细标注。在困难的卡牌游戏和具身智能任务中，基于 LLaVA-7B 的智能体用很小的规模实现了相比 SOTA 显著的成功率提升。

论文标题：GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
论文链接：https://arxiv.org/pdf/2503.08525

1.“思维崩塌” 现象影响 RLVR 训练效果

不像纯文本的智能体训练，由于多模态信息的引入和决策流程复杂性的提高，在交互性视觉环境中用 RL 训练 VLM 智能体更加困难。而其中 “思维崩塌” 的现象则主要体现在以下几点：

智能体的 CoT 过程失去多样性，对于不同的视觉和文本输入给出相同的思路。
模型输出思路不正确、不一致、不完整，虽在输出思路，但已丧失思考能力。
思维能力的丧失极大限制了模型的决策能力，难以释放模型潜力。

实验中发现，更大的模型、更长的训练时间也均展示出思维崩塌的情况。因此，问题的核心原因是强化学习的训练机制：

环境提供的奖励完全由模型最终的动作决定。
比动作输出更长且更基础的思维过程缺少评估和监督，只能依赖结果奖励间接引导。
在动作步骤多、状态空间大、复杂程度高的任务中，这一问题更加显著。

因此，这证明了 VLM 智能体的强化学习训练中，过程引导有着至关重要的作用。

2.GTR 框架如何避免模型 “不懂装懂”？

此前的相关工作也对过程引导的方法做出了研究。然而，常见的过程奖励模型（Process Reward Models, PRMs）需要精细标注的多模态数据训练，昂贵且费力；且固定数据集上的训练容易产生偏差，不适用于动态的交互式环境。

此外，用 VLM 进行打分的 VLM-as-a-judge 方法效果也不佳。这是由于简单的数值奖励难以提供充足的信息量和有效的指导，尤其考虑到大模型更强的 reward hacking 能力。在模型基础能力较差的情况下，缺少正向激励也容易导致悲观探索的问题。

因此，我们需要找到一个足够简单、可规模化且有信息量的思维引导方式。在 GTR 框架中，“修正器模型”（corrector model）承担了这一至关重要的角色。

GTR 利用一个外部的 VLM 模型作为修正器，在强化学习的每一步，先对智能体思路中识别和推理的正确性进行评估，如果发现不正确或者不一致的情况，则利用智能体的状态输入进行修正。通过在常规的 PPO 过程中加入一个针对思路 token 的 SFT loss，将模型的思路与修正器给出的正确结果对齐，形成一个“思维 + 动作”、“SFT+PPO” 的联合训练框架。

通过这种方式，强化学习与思维引导互相形成了补充。思维引导为训练提供了更多的监督信号，强化学习也能通过可验证奖励的反馈，使得修正过程无需专家级别的外部模型提供高质量的参考轨迹，让智能体能够突破外部模型的能力天花板。

针对在线训练样本偏移的问题，GTR 引入了 DAgger 策略缓解错误累积。框架还通过为智能体增加格式奖励和重复惩罚、为修正器模型提供工具调用弥补专业知识等方法，进一步提升了数据质量。

GTR 训练过程的伪代码如下：