达摩院最新研究| RynnVLA-001：让机器人从人类视频中学习操作技巧|rynnvla|动作|操作技巧|机器人|深度思考模型|真实世界|轨迹|达摩院|预训练

近年来，视觉-语言-动作（Vision-Language-Action, VLA）模型在机器人领域取得了显著进展，它使得机器人能够理解人类的语言指令并执行相应的物理操作。然而，VLA模型的发展长期受限于一个核心瓶颈：高质量机器人训练数据的稀缺。收集大规模的机器人操作数据既昂贵又耗时。为了解决这一难题，来自阿里巴巴达摩院的研究者们提出了RynnVLA-001，一个创新的VLA模型，其核心思想是让机器人通过观看海量的第一人称视角人类操作视频，来学习通用的物理世界交互知识，从而显著提升其在真实世界中的操作能力。

论文标题： RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
论文链接： https://www.arxiv.org/pdf/2509.15212
项目链接： https://github.com/alibaba-damo-academy/RynnVLA-001
机构： 阿里巴巴达摩院，湖畔实验室

核心挑战：如何弥合人类视频与机器人动作之间的鸿沟？

互联网上存在着不计其数的第一人称（ego-centric）视频，其中包含了丰富的人类操作演示，例如烹饪、修理、手工等。这些视频本质上是关于“如何与世界互动”的宝贵数据。然而，直接将这些视频用于训练机器人面临两大挑战：

1. 视觉差异： 人类的手与机器人的机械臂在外观和运动学上完全不同。
2. 动作空间不匹配： 视频只包含像素信息，而机器人需要的是精确的低层控制指令（如关节角度、末端执行器坐标）。

RynnVLA-001通过一个精心设计的三阶段训练流程，逐步解决了这些问题。

图：该框架利用了三种类型的训练数据：(1) 第一人称视频生成预训练 (Ego-Centric Video Generative Pretraining) 使用数百万个人类第一人称操作视频进行未来帧的预测。(2) 以人为中心的轨迹感知视频建模 (Human-Centric Trajectory-Aware Video Modeling) 在带有个人关键点标注的视频上进行训练，实现了帧和轨迹的联合预测。(3) 以机器人为中心的视觉-语言-动作建模 (Robot-Centric Vision-Language-Action Modeling) 使用与语言指令配对的机器人数据集，来学习从视觉观察和语言到机器人动作的映射。

RynnVLA-001 的三阶段训练方法

研究团队提出了一种渐进式的预训练策略，分三步将从人类视频中学到的知识迁移到机器人上。

图: RynnVLA-001 的三阶段训练流程，(1) 第一人称视频生成预训练训练一个基于Transformer的图像到视频 (I2V) 模型用于未来帧预测。(2) 以人为中心的轨迹感知视频建模通过增加动作 (轨迹) 预测头，扩展了I2V模型，融合了视觉和状态嵌入（蓝色块）。(3) 以机器人为中心的视觉-语言-动作建模将预训练权重迁移到机器人数据上，模型生成由ActionVAE解码为可执行动作的动作嵌入。

阶段一：第一人称视频生成预训练

此阶段的目标是让模型学习物理世界的基本动态规律。研究团队首先从网络上筛选并整理了1200万段第一人称视角的短视频。模型（一个基于Transformer的图像到视频I2V模型）的任务是：给定视频的第一帧图像和一个描述任务的文本指令（如“用螺丝刀拧螺丝”），预测接下来会发生什么，即生成后续的视频帧。

通过这个过程，模型被迫学习物体如何移动、工具如何使用以及手部操作如何改变环境。这为模型注入了关于“操作”的通用先验知识。

阶段二：以人为中心的轨迹感知建模

第一阶段模型只学会了“看”，但还不会“动”。为了建立视觉变化与具体动作之间的联系，第二阶段引入了人类手部关键点轨迹数据。模型在继续预测未来视频帧的同时，还被要求联合预测人类手腕关键点在未来的运动轨迹。

人类手腕的轨迹可以被看作是机器人末端执行器轨迹的一种“弱监督”信号。通过学习将视觉变化与轨迹运动关联起来，模型开始理解“什么样的动作会导致什么样的视觉结果”，从而初步搭建起从视觉到动作的桥梁。

为了高效地表示动作，研究者还提出了一个名为ActionVAE的变分自编码器。它能将一段连续的动作序列（无论是人类轨迹还是机器人动作）压缩成一个紧凑的、连续的潜在嵌入向量。这不仅降低了预测的复杂度，还保证了生成动作的平滑性和连贯性。

阶段三：以机器人为中心的VLA建模

最后，模型将在机器人上进行“实战”训练。此阶段将前两个阶段预训练好的模型权重迁移过来，并在真实的机器人操作数据集上进行微调。

此时，模型的输入变成了真实的机器人摄像头视图（前置和手腕视角）、机器人当前状态（如关节角度）和语言指令。模型的输出目标不再是视频帧或人类轨迹，而是机器人动作的ActionVAE嵌入向量。这个嵌入向量随后被ActionVAE的解码器还原成一段可执行的机器人动作序列。

通过这种方式，模型将在前两阶段学到的通用物理知识和操作理解，适配到具体的机器人硬件上，学会如何控制机械臂完成任务。

实验结果：显著优于现有模型

为了验证RynnVLA-001的有效性，研究者在一个真实机器人平台上进行了多项操作任务的评测，包括“拾取并放置绿色积木”、“拾取并放置草莓”和“将笔放入笔筒”，并与当前主流的开源VLA模型（如英伟达的GROOT N1.5和谷歌的Pio）进行了比较。