打开网易新闻 查看精彩图片

在具身智能领域,特别是如何构造一个高泛化性的 VLA,数据之争一直存在:仿真数据 vs 真机数据。数据来源不同,导致算法设计迥然不同,进一步对系统设计提出了更多的要求。做 infra 的目标是做好服务,支持不同技术路线的探索。

「仿训推一体化」RLinf v0.1 面向的是采用仿真路线的用户,那么今天要给大家介绍的是 RLinf v0.2,面向采用真机路线的用户,也就是支持了真机强化学习。

打开网易新闻 查看精彩图片

  • 论文标题:RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
  • 论文地址:https://arxiv.org/abs/2509.15965
  • 开源地址:https://github.com/RLinf/RLinf

下面针对 RLinf v0.2 的特色展开介绍。

特色 1:RLinf 允许用户

像使用 GPU 一样使用机器人

在 RLinf 中,我们将机器人看作与 GPU 相同层级的、可灵活配置的资源,如图 1 所示,GPU Node 和 Robot Node 处于同一层级。过去我们通常把 Worker(训练、推理等工作组件)加载在 GPU 上,现在我们可以把 Worker 加载在机器人上。只要能够 access 到机器人的 IP 和端口,无论它们身在何处,都可以接入 RLinf 系统。

RLinf 会按照用户配置进一步完成模型与机器人的对应映射,之后 RLinf 会通过 Data Channel(RLinf 的通信原语)完成数据收集和模型参数更新。而实现这一切,用户只需要编写 YAML 文件即可完成,极大地降低了使用成本。例如,下图 2 展示了以 Franka 为例的 2 台机器人配置方法。

打开网易新闻 查看精彩图片

图 1 将机器人看作与 GPU 相同层级的、可灵活配置的资源 图 2 用户只需要编写 YAML 文件即可完成真机对接

打开网易新闻 查看精彩图片

图2 用户只需要编写YAML文件即可完成真机对接

RLinf 这一独特设计是为了解锁更宏大的目标,即大规模分布式真机强化学习训练范式,如图 3 所示。

这一范式将有望成为具身智能在除了 Scaling 数据、模型之外的第三条路径:Scaling 真机。大规模真机强化学习能够解决当下真机强化学习面临的诸多问题,当然,天下没有免费的午餐,放松了对算法的要求,对应地增加了对 infra 的要求,如何做到稳定、易用、灵活是 infra 要解决的主要挑战。

RLinf 针对这一问题给出了自己的答案:极度灵活的系统设计思想支持多样需求。特别地,RLinf 提出适配强化学习的新一代编程范式 Macro-to-Micro Flow (M2Flow),将上层工作流与底层计算优化解耦,兼顾了灵活性与高效性。

打开网易新闻 查看精彩图片

图 3 大规模分布式真机强化学习系统

特色 2:RLinf 支持

全异构软硬件集群配置

由于与物理世界高度耦合,真机强化学习面临的集群配置通常是异构的、端云协同的。例如,机器人的控制端需要实时操作系统且不需要运行神经网络模型,通常会运行在单独的 CPU 机器,如 NUC;VLA 模型推理端需要与机器人的控制端足够近,使得通信代价最小,且推理需要显存较小,因此 VLA 模型推理通常直接运行在端侧小显存机器,如 24GB 的 4090;VLA 模型训练为了加快训练速度,通常需要云端大显存机器集群,如 80GB 的 A100/800 等。

在端云协同的背景下,RLinf 支持灵活的全异构的软硬件集群配置,提升系统吞吐和训练效率。例如,你可以:

  • 在支持光线追踪的 GPU(如 RTX 4090)上运行高保真模拟器;
  • 在大显存计算 GPU(如 A800)上进行训练;
  • 在小显存计算 GPU(如 RTX 4090)进行推理;
  • 在无显存的 CPU 机器(如 NUC)运行机器人控制器。

在 RLinf 中接入这样的异构环境,只需要在 YAML 配置文件中正确配置 cluster 段落即可,如下图 4 所示。

打开网易新闻 查看精彩图片

图 4 RLinf 支持全异构软硬件集群配置

特色 3:RLinf 支持

全异步 off-policy 算法

真机强化学习的一个典型局限就是物理世界无法被加速,数据效率成为显著瓶颈,所以如何提高数据利用率成为关键一环。除此之外,当下真机强化学习的一种行之有效的方法是人在环介入,例如在执行过程中提供专家示教数据,或者实时标注数据等,传统同步训推框架将会极大限制这一类方法的训练效率。

因此,RLinf v0.2 新增全异步设计,端侧推理节点与云侧训练节点解耦,通过 Data Channel 进行数据周期性同步,进而实现训推并行,极大提高训练效率。同时,RLinf v0.2 上线典型 off-policy RL 算法,包括仅利用在线数据的 SAC [1]、CrossQ [2] 和同时利用离线数据集和在线数据的 RLPD [3] 等,进一步提升数据利用率。RLinf 中异步工作流示意图如图 5 所示。

打开网易新闻 查看精彩图片

图 5 全异步算法流图

实验结果

本次发布的尝鲜版是基于小模型的真机强化学习。为了方便大家快速、低成本复现实验,我们采用常见的Franka 机械臂,基于常见物品或者易获取标准件设计了两个快速验证任务:ChargerPeg Insertion。其中,Charger 任务为稠密奖励,使用异步 SAC [1] 算法训练,训练过程中有 20 次左右的人在环空间鼠标接管,以提高训练效率。Peg Insertion 任务为稀疏奖励,使用异步 RLPD 算法 [3] 训练。在开始训练前,采集了 20 条人类操作数据存储在 Demo Buffer 中。

两个任务的成功率曲线如图 6 所示。可以发现,两个任务均可以在 1.5h 以内收敛。收敛后,Peg Insertion 任务可以连续 100+ 次成功,Charger 任务可以连续 50+ 次成功

打开网易新闻 查看精彩图片

图 6 Peg Insertion & Charger 成功率曲线

训练过程的视频记录如视频 1 所示,完整记录了两个任务的训练过程。同时我们也验证了位于不同空间的两台 Franka 机械臂同时进行真机强化学习,见视频 2。

全异构、全异步的RLinf v0.2尝鲜版发布1
打开网易新闻 查看更多视频
全异构、全异步的RLinf v0.2尝鲜版发布1

全异构、全异步的RLinf v0.2尝鲜版发布2
打开网易新闻 查看更多视频
全异构、全异步的RLinf v0.2尝鲜版发布2

视频 1:训练过程。上:Peg Insertion;下:Charger

全异构、全异步的RLinf v0.2尝鲜版发布3
打开网易新闻 查看更多视频
全异构、全异步的RLinf v0.2尝鲜版发布3

视频 2:位于不同房间的两台 Franka 机械臂同时进行真机强化学习

RLinf 全体成员向支持 RLinf 的 2k 位社区用户表达感谢。用户的使用和反馈促使团队不断完善代码,也不断增加了团队坚定走下去的信心。自 2025.9.1 发布以来,RLinf 几乎保持着每 2 周更新一次新 feature 的开发速度,在经过几轮重构后,面向具身仿真路线需求的「仿训推一体化」强化学习框架 RLinf v0.1 版本于 2025.12.17 正式 release,欢迎大家查看中英双语文档(对!除了代码没有中文版,其他材料都有中文版!不要错过!)。目前 RLinf 支持矩阵可以总结如下:

  • Simulator:Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
  • VLA:Pi0,Pi05,GR00T,OpenVLA,OpenVLA-OFT
  • Custom policy:MLP、CNN
  • RL Algos:GRPO、PPO、DAPO、Reinforce++
  • SFT:Full-para SFT、LoRA

仿真路线还在持续开发,更多的 feature,如仿真器、模型也会尽快跟大家见面!

参考文献:

[1] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International Conference on Machine Learning. PMLR, 2018.

[2] Bhatt, Aditya, et al. "CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity." The Twelfth International Conference on Learning Representations, 2024.

[3] Ball, Philip J., et al. "Efficient online reinforcement learning with offline data." International Conference on Machine Learning. PMLR, 2023.