前言

先说一下本文的来历

  1. 本文一开始是属于此文《GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力》的前言内容之一( 该文发布于23年12月底 ) 当时的前言是 具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「( 建议按照 从下至上 的顺序看,且所有点我都做了详尽而细致的解读,点击下面表格中对应的文字即可阅读,我后续也会不断完善之...

  2. 但后来考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之

有意思的是,其中的RDT、π0都通过聚合各大机器人数据集先做预训练,然后微调,且它两的参数规模也分别达到了1B、3B

大有类似大语言模型的发展路线,比如

  • 17-20年,以BERT、GPT为代表的预训练-微调模式 且从GPT3起,模型的参数规模越来越大,慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务

  • 再之后,咱们经历了GPT3.5的RLHF微调

  • 及至到GPT4之后,模型在各方面的能力逼近人类甚至超越人类

你说,是不是有趣?

最后,我得强调的是,本文所梳理的内容,只是让你入门具身,远远不是具身智能的全部『也不是本博客内具身系列内容的全部 且越往后 本文占比越低,毕竟暂只更新到25年Q1』,故通过本文梳理出来的内容入门具身之后,如果继续前进,则可享受未来更远的旅程

顺带说一下,模型那么多,该从哪个模型开始呢
事实上,对于“想进入具身的高校或公司”,ACT可称之为第一套设备、程序,如果你想以最快的速度复现,我给你打包好了机械臂和相关的配件、4090工作站,和全部的代码(包含部署代码),拿到后 环境一布 插电即用

 一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、RL应用到Robotics VLM、VLA等
打开网易新闻 查看更多视频
一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、RL应用到Robotics VLM、VLA等

七月:训练ACT抓瓶子的全套硬件和全部代码(想做具身先这个)

软硬全套一体 都远低于十几万那种的ur臂,如需要,可私苏苏老师:julyedukefu008或七月在线其他老师。

第一部分 从训练数据来源、动作预测策略、模型训练方法

1.1 训练数据来源:视频、仿真、人工采集

在机器人领域,互联网数据、仿真数据、真实数据等这三类数据构成了主要的数据来源

  • 如果采用端到端模仿学习的方法,给定一张图像并直接输出机器人动作,这通常依赖于真实世界数据

  • 如果采用端到端的强化学习RL,因为需要一个可以反复交互的环境,则往往依赖于仿真数据

当然,也有先在RL仿真环境里训练一个base model,然后再在真实环境中通过模仿学习微调——这个搞法,我司七月具身项目组 便用到过

详见如下表格

打开网易新闻 查看精彩图片

1.2 动作预测策略:以ACT、Diffusion Policy、下个token自回归预测居多

打开网易新闻 查看精彩图片

1.3 RL仿真在机械臂、人形上的应用

打开网易新闻 查看精彩图片

第二部分 VLA训练方式:Robotics VLM和VLA中的动作预测

2.1 是否做预训练

打开网易新闻 查看精彩图片

2.2动作预测:微调VLM之Robotics VLM和VLA

2.1.1 要么专门的动作头,要么下一个token自回归预测动作,要么融合扩散头和自回归

打开网易新闻 查看精彩图片

2.1.2训练数据形式:是文本数据还是机器人数据

微调或预训练VLM而言,一个重要的问题便是训练数据的由来

打开网易新闻 查看精彩图片

2.3 直接提示VLM规划的更细,但过程中加约束

如此文《让VLM充当机器人大脑——不微调直接提示VLM做顶层任务规划:从SayCan、VoxPoser到ViLA、CoPa、ReKep》所述,有

打开网易新闻 查看精彩图片

第三部分 架构层面:是否端到端及借鉴大语言模型的发展之路

3.1 从VLM规划、到微调VLM得到VLA,再到大脑VLM 小脑VLA、VLA中的分层

3.1.1 两个模型 大小脑各干各的:VLM做规划、小脑做控制

打开网易新闻 查看精彩图片

3.1.2 大小脑整合成一个模型:微调VLM得到VLA

打开网易新闻 查看精彩图片

3.1.3 大小脑两个模型:大脑VLM 小脑VLA

打开网易新闻 查看精彩图片

3.1.4 大小脑整合成一个模型,但分层以各司其职:慢思考 快反应

打开网易新闻 查看精彩图片

3.2借鉴大语言模型的发展之路(含3D版的VLA)

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

第四部分 通用人形VLA的发展之路:慢思考(以类似o1/R1加强推理)、快反应

打开网易新闻 查看精彩图片

本文暂只更新到25年Q1, 如需要复现ACT的软硬全套:自主抓零食/分拣(含硬件和代码) 可私苏苏老师:julyedukefu008或七月在线其他老师。

无论是以下哪种情况(当然,各自所需的费用不同,可能低于6.5万,可能高于6.5万,视具体情况而定),我司具身团队皆可服务:

1需要复现ACT抓零食/抓瓶子/分拣或其他任务的所有全套硬件(包含机械臂、相机、结构件等全部,至于4090工作站则可选)、全套可跑起来可直接推理的代码

2有自己的部分硬件(比如任意某一款机械臂),但缺其他配件+ 需要全套代码

3 只单纯需要全套硬件

4硬件都不缺,只需要全套代码

↓↓↓扫码了解更多↓↓↓

咨询可私苏苏老师vx:julyedukefu008或七月在线其他老师