机器人能“思考”但不“发呆”，视觉语言导航中的辅助推理策略|推理|机器人|深度思考模型|视觉

本文介绍了一种用于高效视觉语言导航任务的辅助推理策略Aux-Think。Aux-Think仅在训练期间内化思维链 (CoT)，从而无需在推理时进行明确的推理即可实现高效的视觉语言导航，并以最少的数据实现强大的性能。

论文题目： Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation 论文链接: https://arxiv.org/abs/2505.11886 项目主页: https://horizonrobotics.github.io/robot_lab/aux-think/

一、动机

当机器人在复杂环境中执行任务时，导航能力是必不可少的，但机器人在移动时，是靠直觉走还是先思考再走？这个问题比你想象的更复杂。

近年来，Vision-Language Navigation（视觉-语言导航）任务成为打造智能机器人系统的关键一环：机器人需要理解自然语言指令，并在真实环境中自主移动。尽管大型多模态模型已显著提升了任务表现，但一个令人惊讶的现象是——一旦在执行时引入逐步推理（Chain-of-Thought, CoT），导航效果反而下降。为什么“思考”有时反而“误事”？

现有的大模型推理策略二、方法

为解决这一问题，FAITA范肇心助理教授和人大王永才教授团队联合地平线机器人联合提出了全新方法Aux-Think，首次系统性地对比了三类导航推理策略：

No-Think：直接预测行动；
Pre-Think：先思考再行动；
Post-Think：行动后再解释。

实验发现，在导航这种动态、长程任务中引入显式推理，反而导致严重的“推理崩塌”（Inference-time Reasoning Collapse）：模型在训练时学的是最优轨迹，但实际运行中常常偏离分布，推理质量下降，错误不断累积，最终导航失败。简而言之：机器人“边走边想”，容易越走越偏。

仅在 R2R-CoT-320k 上训练的不同推理策略的导航性能比较。我们提出的 Aux-Think 方法始终优于其他推理策略。

为了进一步探究CoT对导航决策的影响，我们调整了CoT部分的损失权重，使得模型更加专注于学习导航动作部分。我们发现，较为平衡的CoT损失权重对效果略有提升。这表明，虽然推理时间CoT存在问题，但在训练过程中对推理的重视程度是对行动学习影响的一个关键的因素。但是，调整过权重的Pre-Think和Post-Think的效果依然不如No-Think。

调整CoT loss权重后的推理模型导航成功率

具体而言，导航任务本质上是一种多轮交互的长程决策过程。在执行过程中，机器人极易偏离最优路径（Non-oracle），进入未见过的状态分布。然而，在训练阶段，模型仅在理想的最优轨迹上学习如何生成 Chain of Thought（CoT）推理。一旦面对非最优状态，模型往往会生成错误甚至带有严重幻觉的推理内容，进而做出错误决策。这种误差不仅无法被及时纠正，反而会不断放大，使机器人越走越偏，最终导致整个任务失败。

那么，“不思考”才是最优解吗？也不是。

Aux-Think 提出了一个类人训练范式：“训练时学会思考，执行时保持果断。”这就像人类在学车时会反复学习交规，但上路后靠的是肌肉记忆和直觉。我们将推理作为辅助监督信号引入模型训练，让机器人像人一样在学习阶段用“慢系统”建立规则、形成直觉，引导模型学习“如何思考”；但在推理执行时用“快系统”直接做出决策，只输出动作，从而实现更强的导航能力与更高的数据效率。

研究团队首次构建了R2R-CoT-320k数据集，为视觉导航任务提供了32万条高质量的“思维链”注释。这是目前最大、最系统的导航推理语料库，为智能体的因果学习与决策提供了新基础。

三、实验

结果如何？Aux-Think 在多个导航基准测试中以更少的数据达到甚至超越 SOTA 模型，在长程任务中尤其表现稳健（成功率几乎不掉线），有效解决了推理引发的误差累积难题。用简单的话说：它让机器人“训练时学会像人一样思考，执行时像专家一样果断”。

Aux-Think以极少的训练数据取得了具有竞争力的结果，在同等数据量下表现最优，展现出优于现有方法的卓越泛化能力和数据效率。

研究团队同时评估了Aux-Think、Pre-Think和Post-Think的每个推理步骤的成功率 (SR)，并将结果按完成任务所需的步骤数分组。在所有步骤范围内，Aux-Think的表现始终优于两个基准模型。一个关键的观察结果是，随着所需步骤的增加，Pre-Think和Post-Think的性能急剧下降，当任务超过70步时，SR接近于零。相比之下Aux-Think 即使在较长时间范围的任务中也能保持强劲的性能，表现出显著更高的鲁棒性和对复杂、多步骤导航场景的泛化能力。这些结果凸显了Aux-Think在处理任务复杂性增加下的扩展推理和决策方面的卓越可扩展性。

推理过程中不同步骤的推理策略的成功率。四、总结与展望

Aux-Think首次系统性地研究了视觉与语言导航中的推理策略，揭示了一个关键的局限性——推理崩塌（Inference-time Reasoning Collapse），即生成推理中的错误会加剧并降低导航性能。基于这一发现，我们提出了Aux-Think，这是一个推理感知的协同训练框架，它利用思维链作为训练过程中的辅助监督，同时在推理时使用高效的无思考推理（No-Think）。大量实验表明，Aux-Think在使用显著减少的训练数据的情况下，取得了与最先进方法相当的性能，凸显了其稳健性和数据效率。我们还发布了第一个用于VLN的CoT数据集 R2R-CoT-320k，以促进未来推理模型的研究。

未来，Aux-Think研究团队将进一步探索如何通过强化学习与轻量模型结合，使 Aux-Think 的范式更广泛应用于现实世界机器人平台。

llustration From IconScout By Ivasi Studio

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。