RLinf v0.2尝鲜版发布，像使用GPU一样使用你的机器人！|gpu|rlinf|工作流|新模型|机器人|算法

在具身智能领域，特别是如何构造一个高泛化性的 VLA，数据之争一直存在：仿真数据 vs 真机数据。数据来源不同，导致算法设计迥然不同，进一步对系统设计提出了更多的要求。做 infra 的目标是做好服务，支持不同技术路线的探索。

「仿训推一体化」RLinf v0.1 面向的是采用仿真路线的用户，那么今天要给大家介绍的是 RLinf v0.2，面向采用真机路线的用户，也就是支持了真机强化学习。

论文标题：RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
论文地址：https://arxiv.org/abs/2509.15965
开源地址：https://github.com/RLinf/RLinf

下面针对 RLinf v0.2 的特色展开介绍。

特色 1：RLinf 允许用户

像使用 GPU 一样使用机器人

在 RLinf 中，我们将机器人看作与 GPU 相同层级的、可灵活配置的资源，如图 1 所示，GPU Node 和 Robot Node 处于同一层级。过去我们通常把 Worker（训练、推理等工作组件）加载在 GPU 上，现在我们可以把 Worker 加载在机器人上。只要能够 access 到机器人的 IP 和端口，无论它们身在何处，都可以接入 RLinf 系统。

RLinf 会按照用户配置进一步完成模型与机器人的对应映射，之后 RLinf 会通过 Data Channel（RLinf 的通信原语）完成数据收集和模型参数更新。而实现这一切，用户只需要编写 YAML 文件即可完成，极大地降低了使用成本。例如，下图 2 展示了以 Franka 为例的 2 台机器人配置方法。

图 1 将机器人看作与 GPU 相同层级的、可灵活配置的资源图 2 用户只需要编写 YAML 文件即可完成真机对接

图2 用户只需要编写YAML文件即可完成真机对接

RLinf 这一独特设计是为了解锁更宏大的目标，即大规模分布式真机强化学习训练范式，如图 3 所示。

这一范式将有望成为具身智能在除了 Scaling 数据、模型之外的第三条路径：Scaling 真机。大规模真机强化学习能够解决当下真机强化学习面临的诸多问题，当然，天下没有免费的午餐，放松了对算法的要求，对应地增加了对 infra 的要求，如何做到稳定、易用、灵活是 infra 要解决的主要挑战。

RLinf 针对这一问题给出了自己的答案：极度灵活的系统设计思想支持多样需求。特别地，RLinf 提出适配强化学习的新一代编程范式 Macro-to-Micro Flow (M2Flow)，将上层工作流与底层计算优化解耦，兼顾了灵活性与高效性。

图 3 大规模分布式真机强化学习系统

特色 2：RLinf 支持

全异构软硬件集群配置

由于与物理世界高度耦合，真机强化学习面临的集群配置通常是异构的、端云协同的。例如，机器人的控制端需要实时操作系统且不需要运行神经网络模型，通常会运行在单独的 CPU 机器，如 NUC；VLA 模型推理端需要与机器人的控制端足够近，使得通信代价最小，且推理需要显存较小，因此 VLA 模型推理通常直接运行在端侧小显存机器，如 24GB 的 4090；VLA 模型训练为了加快训练速度，通常需要云端大显存机器集群，如 80GB 的 A100/800 等。

在端云协同的背景下，RLinf 支持灵活的全异构的软硬件集群配置，提升系统吞吐和训练效率。例如，你可以：

在支持光线追踪的 GPU（如 RTX 4090）上运行高保真模拟器；
在大显存计算 GPU（如 A800）上进行训练；
在小显存计算 GPU（如 RTX 4090）进行推理；
在无显存的 CPU 机器（如 NUC）运行机器人控制器。

在 RLinf 中接入这样的异构环境，只需要在 YAML 配置文件中正确配置 cluster 段落即可，如下图 4 所示。

图 4 RLinf 支持全异构软硬件集群配置

特色 3：RLinf 支持

全异步 off-policy 算法

真机强化学习的一个典型局限就是物理世界无法被加速，数据效率成为显著瓶颈，所以如何提高数据利用率成为关键一环。除此之外，当下真机强化学习的一种行之有效的方法是人在环介入，例如在执行过程中提供专家示教数据，或者实时标注数据等，传统同步训推框架将会极大限制这一类方法的训练效率。

因此，RLinf v0.2 新增全异步设计，端侧推理节点与云侧训练节点解耦，通过 Data Channel 进行数据周期性同步，进而实现训推并行，极大提高训练效率。同时，RLinf v0.2 上线典型 off-policy RL 算法，包括仅利用在线数据的 SAC [1]、CrossQ [2] 和同时利用离线数据集和在线数据的 RLPD [3] 等，进一步提升数据利用率。RLinf 中异步工作流示意图如图 5 所示。

图 5 全异步算法流图

实验结果

本次发布的尝鲜版是基于小模型的真机强化学习。为了方便大家快速、低成本复现实验，我们采用常见的Franka 机械臂，基于常见物品或者易获取标准件设计了两个快速验证任务：ChargerPeg Insertion。其中，Charger 任务为稠密奖励，使用异步 SAC [1] 算法训练，训练过程中有 20 次左右的人在环空间鼠标接管，以提高训练效率。Peg Insertion 任务为稀疏奖励，使用异步 RLPD 算法 [3] 训练。在开始训练前，采集了 20 条人类操作数据存储在 Demo Buffer 中。

两个任务的成功率曲线如图 6 所示。可以发现，两个任务均可以在 1.5h 以内收敛。收敛后，Peg Insertion 任务可以连续 100+ 次成功，Charger 任务可以连续 50+ 次成功

图 6 Peg Insertion & Charger 成功率曲线

训练过程的视频记录如视频 1 所示，完整记录了两个任务的训练过程。同时我们也验证了位于不同空间的两台 Franka 机械臂同时进行真机强化学习，见视频 2。

视频 1：训练过程。上：Peg Insertion；下：Charger

视频 2：位于不同房间的两台 Franka 机械臂同时进行真机强化学习

RLinf 全体成员向支持 RLinf 的 2k 位社区用户表达感谢。用户的使用和反馈促使团队不断完善代码，也不断增加了团队坚定走下去的信心。自 2025.9.1 发布以来，RLinf 几乎保持着每 2 周更新一次新 feature 的开发速度，在经过几轮重构后，面向具身仿真路线需求的「仿训推一体化」强化学习框架 RLinf v0.1 版本于 2025.12.17 正式 release，欢迎大家查看中英双语文档（对！除了代码没有中文版，其他材料都有中文版！不要错过！）。目前 RLinf 支持矩阵可以总结如下：

Simulator：Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
VLA：Pi0，Pi05，GR00T，OpenVLA，OpenVLA-OFT
Custom policy：MLP、CNN
RL Algos：GRPO、PPO、DAPO、Reinforce++
SFT：Full-para SFT、LoRA

仿真路线还在持续开发，更多的 feature，如仿真器、模型也会尽快跟大家见面！

参考文献：

[1] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International Conference on Machine Learning. PMLR, 2018.

[2] Bhatt, Aditya, et al. "CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity." The Twelfth International Conference on Learning Representations, 2024.

[3] Ball, Philip J., et al. "Efficient online reinforcement learning with offline data." International Conference on Machine Learning. PMLR, 2023.