北京时间11月26日(周三)晚8点,由清华RLinf团队策划、将门-TechBeat人工智能社区组织的分享活动“RL可以为VLA带来什么? ”将在视频号准时直播。

本次直播我们很开心邀请到——清华大学交叉信息研究院博士生高枫卡耐基梅隆大学计算机学院机器人所研究生张同和清华大学博士后/助理研究员于超。他们将从NeurIPS 2025中稿文章出发,一起 聊聊VLA和RL。

点击下方“预约”,锁定直播

直播介绍

主题:RL可以为VLA带来什么?

时间:北京时间11月26日 (周三) 20:00-21:30

简介:

视觉-语言-动作模型(Vision-language-action models, VLAs)以图像和语言指令为输入,输出可执行的机器人动作,能够实现直观且灵活的人机交互,被认为是具身智能领域高潜力解决方案。

当前,VLA的训练方法遵循标准的“预训练-监督微调(Supervised Fine-tune, SFT)”范式,即在预训练VLM的基础上,VLA模型在大规模异质人类演示数据集上进行微调,随后在目标任务上进一步SFT,以使其能力与特定的机器人实体和环境对齐。

然而,对SFT的依赖带来了一个核心挑战:大规模、高质量的专家轨迹既繁琐又昂贵,且通过SFT得到的模型容易过拟合于专家演示。RLinf团队致力于探索如何将强化学习(Reinforcement Learning, RL) 应用于VLA模型。

本次直播将分享团队在 NeurIPS 2025中稿的两篇文章,分别是 (1) RL4VLA:强化学习可以对VLA模型带来何种程度的泛化? (2) ReinFlow:在线强化学习微调流匹配策略。

文章提纲:

(1) What Can RL Bring to VLA Generalization? An Empirical Study

本研究系统探讨了强化学习 (RL) 对视觉-语言-动作 (VLA) 模型泛化能力的促进作用。针对现有VLA主要依赖监督微调 (SFT) 导致的误差累积与分布偏移问题,我们构建了一个覆盖视觉、语义与执行三大维度的泛化能力评测基准,并系统比较RL微调与SFT的差异。实验结果表明,采用PPO进行RL微调可显著提升语义理解与执行鲁棒性,同时保持与SFT相当的视觉泛化表现。研究进一步发现,PPO在VLA场景中整体优于源自LLM范式的DPO与GRPO方法。基于这些发现,我们提出一套高效可复用的PPO训练方案,降低在大规模VLA上应用强化学习的门槛,并验证其在提升泛化性能方面的实际价值。

(2) ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

本研究针对流匹配策略提出了一种高效的在线强化学习 (RL) 框架 — ReinFlow。现有的流模型(如Rectified Flow与Shortcut Models)基于行为克隆,其探索能力不足,成功率受制于专家数据的质和量,而且一次训练结束后,性能很难继续提升。ReinFlow可以对通过行为克隆得到的流策略开展强化学习,通过模型自主采集数据来提高成功率。ReinFlow从RL理论出发,通过引入噪声估计网络,将确定性的流路径转化为离散时间马尔可夫过程,从而实现精确且直接的似然估计。在包括足式运动控制、视觉输入机械臂操作的场景中,ReinFlow的微调显著提升了性能,相比扩散策略,大幅减少了推理的时钟时间。本工作为今天主流的机器人操作策略的强化学习提供了科学的研究基础。例如,近期团队成功将Reinflow集成RLinf系统,首次将大规模并行在线强化学习应用于接收稀疏奖励的流匹配 VLA 模型,展示了卓越的微调性能。

参考资料

打开网易新闻 查看精彩图片

论文链接: https://arxiv.org/ 2510.25889

打开网易新闻 查看精彩图片

论文链接: https://arxiv.org/abs/ 2505.19789

打开网易新闻 查看精彩图片

论文链接: https://arxiv.org/abs/2510.06710

打开网易新闻 查看精彩图片

论文链接: https://arxiv.org/abs/2505.22094

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

讲者介绍

打开网易新闻 查看精彩图片

高枫

清华大学交叉信息院博士生

高枫,清华大学交叉信息院博士在读,导师吴翼。主要研究方向为强化学习与机器人学习,曾在CoRL,ICML,NeurIPS,AAMAS,RAL等会议/期刊发表多篇论文。

打开网易新闻 查看精彩图片

张同和

卡耐基梅隆大学计算机学院机器人所研究生

张同和,卡耐基梅隆大学计算机学院机器人所研究生,师从Guanya Shi和Max Simchowitz。主要研究方向为扩散模型、强化学习与机器人学习,曾在ICML,NeurIPS,ICRA等会议发表多篇论文。

打开网易新闻 查看精彩图片

于超

清华大学博士后/助理研究员

于超,博士毕业于清华大学电子工程系,师从汪玉和吴翼教授。研究方向为强化学习驱动的决策智能。迄今以第一/通讯作者在顶级国际会议和期刊发表论文40余篇,谷歌学术总引用4600余次。其中,以第一作者发表于NeurIPS 2022的多智能体强化学习算法MAPPO论文引用逾2000次,发表于IROS 2018的机器人论文引用超1000次。曾获清华大学优秀博士毕业生、优秀博士论文、优秀硕士论文、2024年度中国智能体与多智能体系统优秀博士论文提名奖、国家奖学金等荣誉。博士后期间入选清华大学“水木学者”计划;主持国家自然科学基金青年项目、博士后基金特别资助与面上项目等。

打开网易新闻 查看精彩图片

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈