AI利用视觉-时间上下文改变游戏规则，ROCKET-1玩转我的世界|上下文|游戏规则|视觉

视觉-语言模型（VLMs）在多模态任务上表现出色，但要让它们适应开放世界环境中的决策仍面临挑战。主要问题在于，难以顺畅地将低层次的观察细节与决策所需的抽象概念连接起来。通常的解决办法是使用分层代理，其中VLMs作为高层思考者，把任务分解成可以执行的子任务，通常用语言和“想象”的观察来描述。不过，语言往往无法准确传达空间信息，而生成未来场景图像也不够精确。

为了解决这些不足，北大团队提出了一种新的：视觉-时间上下文提示方法ROCKET-1。这种方法利用过去和现在的观察信息进行对象分割，从而引导策略模型与环境的互动。这种方法让VLMs的视觉-语言推理能力得以充分发挥，尤其在需要空间理解的复杂任务中更加出色。（链接在文章底部）

01 技术原理

策略架构：ROCKET-1 通过因果Transformer处理互动类型（c）、观察信息（o）、和对象分割信息（m）来预测下一步行动（a）。观察信息和分割信息会合并后传给视觉主干模型进行深度融合。在训练过程中，互动类型和分割信息会以一定概率随机丢弃。

轨迹重标定流程在 Minecraft 中的应用以及视频示例。在互动事件发生前的帧图像中心，应用边界框和点选工具来识别互动对象。然后，SAM-2 会按照时间的逆序运行一段指定的时间，以持续跟踪并标记互动对象，同时互动类型在整个过程中保持不变。

与高层推理器的整合。GPT-4o 模型根据当前观察将复杂任务分解成多个步骤，Molmo 模型则通过输出点来识别可互动的对象。接着，SAM-2 根据这些点提示对对象进行分割，而 ROCKET-1 利用这些对象的分割遮罩和互动类型来做出决策。GPT-4o 和 Molmo 的运行频率较低，而 SAM-2 和 ROCKET-1 则与环境保持相同的运行频率。

02 对比与实际效果

解决具身决策任务的不同流程方法。（a）端到端流程：直接对语言、观察和行动的序列进行建模。（b）语言提示：VLMs 分解指令，为语言驱动的策略执行提供指导。（c）潜在提示：将离散行为标记映射到低层次的具体动作。（d）未来图像提示：微调 VLMs 和扩散模型，以图像为条件控制行动。（e）视觉-时间提示：VLMs 生成分割和互动提示，引导 ROCKET-1 做出决策。

Minecraft 交互基准测试包含六种交互类型，共计 12 个任务。与以往的基准不同，这些任务强调与特定空间位置的物体进行互动。比如在“猎捕右侧围栏里的羊”任务中，如果代理在左侧围栏杀羊则任务失败。一些任务（如“在钻石块上放置橡木门”）从未出现在训练集中。该基准还用于评估代理的零样本泛化能力，即在没有见过类似任务的情况下能否顺利完成任务。

使用 Gradio 播放 ROCKET-1：