视觉-语言模型(VLMs)在多模态任务上表现出色,但要让它们适应开放世界环境中的决策仍面临挑战。主要问题在于,难以顺畅地将低层次的观察细节与决策所需的抽象概念连接起来。通常的解决办法是使用分层代理,其中VLMs作为高层思考者,把任务分解成可以执行的子任务,通常用语言和“想象”的观察来描述。不过,语言往往无法准确传达空间信息,而生成未来场景图像也不够精确。

为了解决这些不足,北大团队提出了一种新的 : 视觉-时间上下文提示方法ROCKET-1。 这种方法利用过去和现在的观察信息进行对象分割,从而引导策略模型与环境的互动。 这种方法让VLMs的视觉-语言推理能力得以充分发挥,尤其在需要空间理解的复杂任务中更加出色。(链接在文章底部)

01 技术原理

策略架构:ROCKET-1 通过因果Transformer处理互动类型(c)、观察信息(o)、和对象分割信息(m)来预测下一步行动(a)。观察信息和分割信息会合并后传给视觉主干模型进行深度融合。在训练过程中,互动类型和分割信息会以一定概率随机丢弃。

轨迹重标定流程在 Minecraft 中的应用以及视频示例。在互动事件发生前的帧图像中心,应用边界框和点选工具来识别互动对象。然后,SAM-2 会按照时间的逆序运行一段指定的时间,以持续跟踪并标记互动对象,同时互动类型在整个过程中保持不变。

与高层推理器的整合。GPT-4o 模型根据当前观察将复杂任务分解成多个步骤,Molmo 模型则通过输出点来识别可互动的对象。接着,SAM-2 根据这些点提示对对象进行分割,而 ROCKET-1 利用这些对象的分割遮罩和互动类型来做出决策。GPT-4o 和 Molmo 的运行频率较低,而 SAM-2 和 ROCKET-1 则与环境保持相同的运行频率。

02 对比与实际效果

解决具身决策任务的不同流程方法。(a)端到端流程:直接对语言、观察和行动的序列进行建模。(b)语言提示:VLMs 分解指令,为语言驱动的策略执行提供指导。(c)潜在提示:将离散行为标记映射到低层次的具体动作。(d)未来图像提示:微调 VLMs 和扩散模型,以图像为条件控制行动。(e)视觉-时间提示:VLMs 生成分割和互动提示,引导 ROCKET-1 做出决策。

Minecraft 交互基准测试包含六种交互类型,共计 12 个任务。与以往的基准不同,这些任务强调与特定空间位置的物体进行互动。比如在“猎捕右侧围栏里的羊”任务中,如果代理在左侧围栏杀羊则任务失败。一些任务(如“在钻石块上放置橡木门”)从未出现在训练集中。该基准还用于评估代理的零样本泛化能力,即在没有见过类似任务的情况下能否顺利完成任务。

使用 Gradio 播放 ROCKET-1:

https://github.com/CraftJarvis/ROCKET-1

欢迎交流~,带你学习AI,了解AI