这项由加州大学伯克利分校与Impossible Research联合完成的研究,以预印本形式于2026年6月17日发布在arXiv平台,编号为arXiv:2606.19419。对机器人学习和人工智能感兴趣的读者,可以通过该编号查询完整论文。
一个孩子在没人教他之前,已经学会了怎么叠积木、怎么把球塞进盒子里。没有人给他打分,没有人告诉他任务目标,他只是在"玩",而玩着玩着,手就变得越来越灵巧了。这项研究的出发点,正是这样一个朴素的观察:能不能让机器人也拥有这种"在玩耍中成长"的能力?
研究团队将这套系统命名为RATS,全称是"机器人智能体团队"(Robotics Agent Teams)。RATS的核心理念是,在真正的工作任务下达之前,让机器人先自己"玩"一段时间——自己给自己提出任务、自己练习、自己记录哪里做成了、哪里又摔跟头了,然后把那些成功经验打包成可以反复使用的"技能库"。等到真正的任务来了,机器人就可以从这个库里调取工具,大大提高解决问题的成功率。
这个思路乍听之下很简单,但实现起来涉及到了一套相当精密的设计。研究团队在多个模拟环境和真实机器人平台上验证了RATS的效果,结果显示,经过"玩耍期"训练的机器人,在执行全新任务时的成功率比从未玩耍过的基准系统提升了超过20个百分点。更令人印象深刻的是,这些在模拟环境中练出来的技能,甚至可以直接被其他机器人系统"借用",无需重新训练底层模型。
一、机器人为什么需要"玩耍"?
现有的机器人系统大多是典型的"命令执行者"——给一个任务,它就去做;任务做完,学习也就结束了。即使系统在完成任务过程中积累了一些有用的经验,这些经验也只是执行任务的副产品,而非主动学习的结果。这种被动模式带来了一个明显的短板:每次遇到新任务,机器人几乎都要从零开始,之前积累的东西很难被有效复用。
人类孩子的学习恰恰相反。发展心理学研究表明,孩子在3到4岁时就会通过自发的探索发现可控的物理规律,比如"用力推这个积木,它会倒"、"轻轻放这个球,它会滚"。这种探索不是漫无目的的随机行为,而是一种本能地在"已经会了"和"还不会"之间寻找练习点的过程——既不挑太容易的,也不碰根本搞不定的。心理学家把这称为"金发姑娘原则",即在难度适中的挑战中学习效率最高。
RATS的设计者们把这个理论搬进了机器人领域。他们认为,在大型语言模型和视觉语言模型已经能够理解语言、生成代码、感知图像的今天,机器人完全可以用语言表达自己想练习什么,用代码执行这个练习,观察结果,然后把成功的经验存起来备用。这让"玩耍"真正成为了一种可工程化的技能积累机制,而非模糊的比喻。
二、RATS是怎么"玩"的?
把RATS的整个运作方式理解为一个有组织的练习营会更直观。这个练习营由三个分工明确的小组组成,各自负责不同的环节,共同推进机器人的自我学习。
第一个小组负责"选题",被称为任务提议团队。每轮练习开始时,这个小组会观察当前场景里有哪些物体,同时查看机器人已经掌握的技能清单和过去的失败记录,然后提出一批候选练习任务。提出任务后,它不会随机选一个,而是用一套评分机制筛选出最适合练习的那个。评分机制包含两个维度:一是"新鲜度",即这个物体和动作的组合以前练习过多少次,练得越少得分越高;二是"可学习性",即机器人对完成这类任务所需技能的历史成功率是否在50%左右——太高说明已经掌握了,练了也没多大意思;太低说明根本没有基础,练了也是白费。只有两个维度都达标的任务,才会被选中进行本轮练习。这套机制在论文中被称为"金发姑娘驱动的任务选择",直接对应前文提到的心理学理论。
选好任务之后,第二个小组登场,负责"执行"。执行团队内部又分为几个角色。规划者负责把任务拆分成一步一步的行动序列,并标注每一步应该调用哪些已有技能。代码编写者把这个行动计划翻译成可以真正运行的Python代码,交给机器人执行。与此同时,一批"验证者"在旁边盯着过程:规划核查者检查计划逻辑上有没有问题,代码质检者扫描代码里有没有语法错误或者危险指令,目标核查者在执行完成后判断任务有没有成功,逐步核查者则对每一个执行步骤单独给出成败判断。如果失败了,故障诊断者会综合所有信息找出问题出在哪一步、为什么失败,并提出下一次重试的修改建议。
这套"写代码—执行—核查—诊断—重试"的循环最多会进行若干次。如果某个子动作在多次尝试后始终过不了关,系统会专门派出一个"子智能体",让它在隔离的环境里单独练这个动作,直到摸索出一套可行的方案,再汇报给主执行流程使用。这就像一支赛艇队里,负责协调的人发现某个队员的划桨动作总是出问题,就让他单独去训练,练好了再回来合练。
第三个小组负责"记忆管理"。每次任务结束后,不论成功还是失败,记忆管理团队都会更新两个持久化的存储库。成功的情况下,系统会从成功的代码里提取出通用性强的子函数,写上说明文档,存入"技能库",标记为"实验性"等级。随着这个技能在后续任务中被反复调用并持续成功,它会被提升为"已验证"状态,在未来的规划中享有更高的调用优先级;反之,如果一个技能屡战屡败,就会被降级为"废弃"状态,不再出现在规划建议中。失败的情况下,系统会把这次经历提炼成一条教训,存入"失败记忆库",供日后遇到类似情况时参考。每隔五轮练习,记忆整理者还会对两个库进行一次清理,合并重复的内容,删除过时的教训,并主动根据反复出现的失败模式起草新的候选辅助函数,让机器人的下一轮练习有更好的工具可用。
三、技能库里究竟装着什么?
从研究的实验数据来看,经过50轮玩耍练习后,机器人在MolmoSpaces环境中积累了27个自学的辅助技能,同时存储了70个原始失败记录和121条提炼后的经验教训。这些技能涵盖了物体定位、抓取规划、方向判断、推拉操作、放置释放等多种操作类别。
以一个具体的技能为例,有一个被命名为"get_axis_aligned_pull_direction"的函数,它的作用是计算出相对于机器人底座最对齐的拉动方向——也就是说,当机器人需要拉开一个抽屉时,它可以调用这个函数判断应该朝哪个方向用力,而不用每次都从头计算。这个函数是在第2次练习中尝试拉开一个小桌上的抽屉失败之后,由技能提议者根据失败原因起草,后来又在第16次练习中被成功调用,验证可靠后正式晋升为高优先级技能。到评估阶段,这个函数在400次测试任务中被调用了整整614次,其中仅在"打开"类任务中就贡献了超过32%的辅助函数调用量。
另一个典型的技能叫"push_object_closed",专门处理推合抽屉或橱柜的动作。它的实现逻辑是先定位目标物体的位置,判断应该朝哪个方向推,然后控制机械臂执行推合动作。这个技能的诞生故事同样有迹可循:第2次练习成功推合了抽屉之后被提取,之后在第10次练习的"推合部分打开的抽屉"任务中再次被调用并成功,之后在评估阶段的"关闭"类任务中承担了21.6%的辅助函数调用量。
相比之下,也有一些技能在积累了足够多的失败记录之后被标记为"废弃"。例如一个专门处理腕部摄像头视角下抓取规划的函数,在26次被调用中只成功了6次,成功率不足25%,最终被系统降级,不再出现在常规规划建议里。这套动态的技能生命周期管理机制,保证了技能库始终保持精简且可靠,而不会越积越乱。
四、实验结果告诉我们什么?
研究团队在三个不同的测试场景中检验了RATS的效果,每个场景关注的问题略有不同。
第一个场景是LIBERO-PRO,一个专门测试机器人操控任务泛化能力的模拟环境。测试任务涵盖对物体、目标和空间关系的三种扰动,每种扰动又分为"初始位置交换"和"任务描述变体"两种形式,共6个子测试集,每个测试集10个任务,每个任务执行10次,合计600次测试。基准系统(完全没有玩耍期)的平均成功率是23.2%,加入RATS玩耍期之后升至43.8%,提升了20.6个百分点。在物体操控类任务中,成功率甚至分别达到了61%和63%,几乎是基准系统的两倍多。相比之下,业界知名的视觉-语言-动作模型π0和OpenVLA在这套测试中成功率均为0%,最好的π0.5也只达到了12.8%。
第二个场景是MolmoSpaces,一个通过自然语言描述评判成功与否的模拟环境,测试任务包括打开、关闭、拾取和拾取放置四类,每类10个任务,每个任务10次,共400次测试。基准系统平均成功率为21%,RATS提升至38%,增幅17个百分点。其中关闭类任务的成功率从36%跳升至73%,提升最为显著。
第三个场景测试的是跨环境迁移能力——在LIBERO-PRO中练出来的技能,能不能直接用在一个从未见过的模拟环境RoboSuite里?结果是肯定的。把LIBERO-PRO的技能库直接"插入"基准系统后,RoboSuite上的平均成功率从40.3%提升至49.1%,增幅8.9个百分点。其中两臂协同举起物体这一任务的成功率提升了整整24个百分点——这尤其值得注意,因为练习技能时用的是单臂机器人,而测试时用的是双臂机器人,技能跨越了不同的机器人形态依然发挥了作用。
研究团队还专门做了一组消融实验,来判断"玩耍的质量"和"执行系统的质量"对最终结果各自贡献了多少。实验将"不玩耍"、"随机玩耍"(随机选任务练习)和"好奇心驱动玩耍"(使用金发姑娘机制选任务)三种玩耍策略,分别配合基准执行系统和完整RATS执行系统进行对比。在基准执行系统下,随机玩耍的平均成功率是24.7%,仅比不玩耍的23.2%高出1.5个百分点,说明漫无目的地练并没有多大用处;而好奇心驱动的玩耍达到了32.3%,说明任务选择策略的质量至关重要。在完整RATS执行系统下,不玩耍已经能达到36.3%,好奇心驱动玩耍进一步提升至44.3%,说明"玩什么"和"怎么执行"是相互独立又相互增强的两个因素,两者叠加才能达到最佳效果。
五、技能能不能用在真实机器人上?
在所有实验结果中,最让研究者感到惊喜的或许是真实机器人上的测试。团队将LIBERO-PRO模拟环境中练习得到的技能库直接导出,不做任何真实世界的微调,加载到一台真实的机械臂上,然后让它执行"拾起红色方块"和"将方块放入碗中"两个任务,每个任务40次,合计80次测试。
没有技能库的基准系统成功率为30%,加入技能库后成功率提升至38.8%,提升8.8个百分点。这个数字或许听起来不惊天动地,但考虑到技能完全来自模拟环境、没有经过任何真实场景适应性调整,这种从虚拟到现实的直接迁移已经相当难得。从机器人实际操作的视频画面来看,它能够顺利完成"把方块放入碗中"、"交换两个方块位置"、"关闭打开的抽屉"和"打开关闭的抽屉"等动作,这些技能全部来自模拟练习期间的积累。
研究团队还额外测试了MolmoSpaces环境中练习得到的技能在真实机器人上的效果,针对"交换方块"和"关闭抽屉"两个任务各进行30次测试。没有技能库的基准系统在这两个任务上几乎完全失败,成功率分别为0%和6.7%;加入技能库后分别提升至23.3%和26.7%,平均提升21.7个百分点。
六、为什么"玩耍积累的技能"比"临场多试几次"更有效?
研究团队还进行了一项颇具说服力的对比实验,专门回答这样一个质疑:既然RATS在玩耍期消耗了大量计算资源,那直接把这些资源用来让机器人在测试时多重试几次,效果会不会一样?
他们的计算表明,50轮玩耍大约消耗了3000万个token(可以理解为AI处理文字的计算单位)。把这个成本平摊到60个测试任务上,相当于每个任务多给基准系统约50万个额外token,足够让它从10轮重试延长到约15轮重试。于是他们真的测试了"15轮重试基准系统"的成功率,结果是26%——只比标准10轮重试的23.2%高了不到3个百分点。而同样的计算成本用来练习,再配合10轮重试基准系统,成功率达到了32.3%。换句话说,预先练习积累技能,比临场多重试几次要高效得多。原因并不难理解:重试只是在同一个知识水平上多碰几次运气,而技能积累是真正提高了机器人的能力基础。
七、RATS的每一个细节是如何设计的?
要完整理解RATS为什么能奏效,有必要深入了解它各个组成部分的设计细节。
在任务提议环节,提议者会同时参考当前场景中可见且可触及的物体列表、完整的技能库摘要(包含每个技能的名称、描述、可靠性等级和历史成功率,但不包含完整代码),以及过去10次任务的记录(任务描述、是否成功、失败原因)。在生成5个候选任务之后,系统会对每个候选任务计算两个分数的乘积:新鲜度分数用历史尝试次数的平方根倒数来计算,尝试越少得分越高;可学习性分数用4乘以历史成功率再乘以1减成功率来计算,这个函数在成功率约50%时达到峰值,接近0%或100%时都趋向于0。两个分数相乘,得分最高者入选。如果某个候选任务因为与当前环境配置不兼容而被否决,它会在进入评分之前就被过滤掉,不消耗执行资源。
在执行环节,规划者看到的技能清单是有优先级排序的:已验证的技能排在最前面,实验性技能次之,废弃技能默认不显示。规划者在为每个步骤选择技能时,既可以调用已有技能,也可以标注"需要编写新技能"。代码编写者拿到规划之后,在生成代码时会接收到上一次失败的步骤级诊断和已经成功的代码片段,这样它就知道哪些部分不用改、只需要修改哪些关键之处,而不必每次都从头重写整个程序。这个设计大大减少了无效的重复工作,也降低了改了已经成功部分的风险。
在记忆管理环节,新技能被提取出来时会经过一套静态验证:确认它定义了一个可调用的函数,只使用已知的基础原语或现有技能,且与库中已有技能没有重大重复。通过验证后,才会被正式加入技能库。每个技能的调用成功率会随时间持续追踪更新,晋升规则是"至少被调用3次且成功率不低于50%",降级规则是"至少被调用10次且成功率不超过20%"。记忆整理者每5轮执行一次清理,合并相近教训,删除无效教训,并根据反复出现的失败模式主动起草候选辅助函数——注意,这些主动起草的函数进入技能库后也是"实验性"状态,需要通过后续实际使用来验证其价值。
八、局限性在哪里?
研究团队在论文中诚实地列举了RATS目前面临的挑战。
首先,RATS的评估绝大部分仍在模拟环境中完成,真实机器人的测试规模较小,两个任务各40次,这距离证明稳健的现实世界适用性还有一定距离。模拟环境和真实世界之间的差距(如物理摩擦、光线变化、传感器噪声)可能在更复杂任务上显著放大。
其次,玩耍期可以练习的内容受限于模拟环境的丰富程度。如果模拟场景中只有有限的物体类型和动作种类,机器人能积累的技能就自然有限,难以覆盖真实世界中多样的物体形态和物理特性。
第三,技能检索并非总是准确的。当检索到的技能与当前任务并不匹配时,强行使用可能反而降低成功率——论文中的数据显示,在MolmoSpaces的"打开"类任务中,成功率仅有20%,远低于"关闭"类的73%,部分原因可能与技能与任务的匹配质量有关。
第四,RATS的推理成本较高。完整的规划-验证-诊断-重试循环涉及大量语言模型调用,从token消耗分析来看,仅10轮玩耍就消耗了超过500万个token,其中故障诊断器占40.5%,代码编写者占28.8%,失败记忆提炼占19.4%。这意味着RATS的运行成本相当可观,如何在不牺牲效果的前提下降低计算开销,是未来需要解决的问题。
第五,系统目前依赖视觉语言模型来判断每个步骤是否成功,这种"视觉核查"本身也可能出错,特别是在光线不佳、遮挡严重或场景复杂的情况下。
说到底,RATS揭示的核心洞见其实并不复杂:如果你想让一个人变得更有能力,最好的办法不是在他接到任务时临时抱佛脚,而是给他足够的时间和空间在任务来临前主动积累经验。这对人类如此,对机器人也不例外。
研究团队用数据证明了,玩耍积累出来的技能不仅能帮助机器人在熟悉环境中表现更好,还能跨越环境边界、跨越机器人形态的差异,直接被其他系统调用。这种"先练再用"的范式,可能为未来机器人学习提供一个不同于"边做边学"的新路径。
当然,目前的成果还相对初步。真实机器人的测试任务只有两到四个,模拟环境的物理保真度与现实世界仍有差距,系统的计算成本也需要进一步优化。但这个方向本身值得继续探索,毕竟人类花了好几年在学校里"玩耍式地"积累基础能力,才能胜任各种复杂工作——没有理由要求机器人在没有任何预先练习的情况下,一开机就无所不能。
对这个话题感兴趣的读者,可以在arXiv上通过编号2606.19419找到完整论文,以及通过Playful-RATs.github.io查看更多演示视频和实验细节。
Q&A
Q1:RATS系统的"玩耍期"和普通机器人训练有什么区别?
A:普通机器人训练需要人类事先指定任务、提供反馈或标注数据。RATS的玩耍期则是完全自主的——机器人自己决定练什么、自己评判成功与否、自己把成功经验整理成可复用的技能。没有人工干预,没有外部奖励信号,就像孩子一个人在房间里玩,而不是被老师布置作业。
Q2:RATS学到的技能能直接用在其他机器人上吗?
A:可以,而且这正是研究的重要发现之一。RATS在LIBERO-PRO模拟环境中练习得到的技能库,被直接"插入"到RoboSuite这个从未见过的模拟环境中,不做任何额外训练,成功率就提升了8.9个百分点。甚至在单臂机器人环境里练出来的技能,也能帮助双臂机器人完成协作任务,跨越了机器人形态的限制。
Q3:RATS的"金发姑娘机制"是怎么判断一个任务难度是否合适的?
A:RATS会查看机器人对完成该任务所需各项技能的历史成功率,然后用公式计算一个"可学习性"分数。这个分数在历史成功率约50%时最高——说明机器人有一定基础但还没完全掌握,继续练有意义;如果成功率接近100%说明已经会了,练了收益不大;如果接近0%说明根本没有基础,练了也很难成功。系统会优先选择处于这个"甜区"的任务进行练习。
热门跟贴