机器人是怎么学会干活的：一部当代简史|jibo|人形|机器人学|机械

来源：市场资讯

（来源：麻省理工科技评论APP）

机器人学家过去的特点是：梦做得很大，东西造得很小。他们满怀壮志要匹敌甚至超越人体的惊人复杂度，然后把整个职业生涯花在给汽车工厂打磨机械臂上；目标是 C-3PO（《星球大战》里的人形机器人，能说六百多万种语言，会走路、会社交、有情感反应，是科幻电影中最经典的“像人一样的机器人”形象），做出来的是扫地机器人 Roomba。

这些研究者中许多人的真正野心，是科幻片里的那种机器人——能在世界中自由移动、适应不同环境、安全而有益地与人互动。对有社会使命感的人来说，这样的机器可以帮助行动不便的人、缓解孤独感、承担对人类来说太危险的工作。对更看重商业前景的人来说，它意味着一种取之不尽、不用发工资的劳动力来源。但不管出发点是什么，一段漫长的失败史让硅谷大多数人不敢在“有用的机器人”上下注。

这个局面变了。机器还没造出来，但钱已经涌进来了：仅 2025 年一年，企业和投资者就向人形机器人砸了 61 亿美元，是 2024 年投资额的四倍。

发生了什么？机器学习与世界互动的方式经历了一场革命。

设想你想在家里装一双机械臂，只让它做一件事：叠衣服。它该怎么学会？你可以先写规则：检查面料，算出它被拉伸到什么程度会撕裂；识别衬衫的领子；把夹爪移到左袖，抬起来，向内折叠精确到多少距离；右袖重复一遍；如果衬衫转了方向，相应地调整方案；如果袖子拧了，纠正它……规则的数量很快就会爆炸，但如果真的把每种情况都穷举了，确实能产出可靠的结果。这就是机器人学最初的手艺：预判一切可能性，提前写好代码。

大约 2015 年前后，前沿领域开始换打法：在数字世界里搭建机械臂和衣服的仿真模型，每次成功叠好就给程序一个奖励信号，失败了就扣分。通过反复试错、迭代几百万次，程序自己摸索出越来越好的技巧——跟 AI 学下棋用的方法一样。

2022 年 ChatGPT 的问世引爆了当前这轮热潮。大语言模型在海量文本上训练，工作原理不是试错，而是学会预测一句话里下一个词应该是什么。类似的模型被移植到机器人领域后，很快就能吃进图像、传感器读数和机器人关节的位置信息，预测机器接下来该做什么动作，每秒钟发出几十条运动指令。

依赖能吃下大量数据的 AI 模型，似乎不管机器人是需要跟人说话、在环境中移动，还是完成复杂任务，都管用。而且它还和其他想法结合在一起，比如即使机器人还不完美也先放出去，让它在真实工作环境里继续学习。今天，硅谷的机器人学家们又开始做大梦了。

Jibo - Jibo

早在大语言模型时代之前，一台可以活动的社交机器人就已经在和人聊天了。

2014 年，MIT 的机器人学家辛西娅·布里泽尔（Cynthia Breazeal）向世界介绍了一款没有手臂、没有腿、没有脸的机器人，叫 Jibo。它看上去像一盏台灯。布里泽尔的目标是为家庭打造一款社交机器人，这个想法通过众筹拉到了 370 万美元。早期预订价 749 美元。

早期的 Jibo 能做自我介绍，能跳舞逗孩子开心，但也就仅此而已了。它的愿景一直是成为一种有实体的助手，从日程管理、处理邮件到讲故事什么都能干。它确实赢得了一批忠实用户，但公司最终在 2019 年关闭了。

2014 年启动的众筹活动为 Jibo 带来了 4800 份预订。（来源：麻省理工科技评论）

回头来看，Jibo 最需要的是更好的语言能力。它当时的竞争对手是苹果的 Siri 和亚马逊的 Alexa，而这些技术在当时都依赖大量的脚本预设。笼统来说，当你跟它们说话时，软件会把你的语音转成文字，分析你想要什么，然后从预先批准的回复片段里拼出一个回应。这些片段可以很有趣，但也重复、无聊——用一个词来说就是“很机械”。对一款定位社交和家庭的机器人来说，这是硬伤。

此后发生的事情大家都知道了：机器生成语言的方式发生了一场革命。如今任何一家头部 AI 公司的语音模式都已经做到了引人入胜、令人印象深刻，多家硬件初创公司正在尝试（但大多失败）打造利用这项能力的产品。

但新能力也带来新风险：预设脚本的对话不太会跑偏，AI 生成的对话就不一定了。比如一些流行的 AI 玩具就曾跟孩子聊过如何找到火柴和刀。

OpenAI - Dactyl

一只用仿真训练的机器手，尝试模拟真实世界的不可预测性和变化。

到 2018 年，所有顶尖机器人实验室都在努力抛弃旧式的脚本规则，转而通过试错来训练机器人。OpenAI 尝试在虚拟环境中训练它的机器手 Dactyl——用机器手和手掌大小的立方体的数字模型。立方体的每个面上有字母和数字，模型可能设定一个任务，比如“转动立方体，让带有字母 O 的红色面朝上”。

Dactyl 是 OpenAI 首次涉足机器人领域的产物，它通过仿真训练学会了解魔方。

（来源：麻省理工科技评论）

问题在于：机器手可能在仿真世界里做得非常好，但当你把这个程序拿到现实世界、让它操作真正的立方体时，两个世界之间的细微差异就可能导致失灵。颜色可能略有不同，机器人指尖的可变形橡胶可能比仿真里的更有弹性。

解决方案叫做“域随机化”（domain randomization）：你本质上是创造出几百万个略有差异的仿真世界，每个世界里的摩擦力、光照、颜色都被随机调整；接触了足够多的变化之后，机器人在真实世界中操控立方体的能力就会更强。这个方法在 Dactyl 上成功了。一年后它用同样的核心技术完成了更难的任务：解魔方（尽管成功率只有 60%，面对特别复杂的打乱时只有 20%）。

不过仿真技术有其局限性，这种方法在今天扮演的角色已经比 2018 年小得多了。OpenAI 在 2021 年关闭了机器人业务，但最近重新启动了这个部门，据报道正在聚焦人形机器人。

Google DeepMind - RT-2

从互联网上的海量图片中学习，帮助机器人把语言指令转化为动作。

2022 年前后，Google 的机器人团队在做一些有点奇怪的事情。他们花了 17 个月，把机器人遥控器交给人类，拍下他们做各种事情的视频——从拿起薯片袋到开罐头。团队最终编录了 700 种不同的任务。

RT-2（全称 Robotic Transformer 2，即"机器人变换器 2 号"）引入了互联网数据，帮助机器人理解它们看到的画面。（来源：麻省理工科技评论）

Google 的目的是构建和测试机器人领域最早的大规模基础模型之一。思路和大语言模型类似：把大量文本输入进去，将其标记化为算法能处理的格式，然后生成输出。Google 的 RT-1 接收的输入包括机器人看到的画面和机械臂各部件的位置信息，然后接受一条指令，将其转化为驱动机器人运动的指令。对于见过的任务，它的成功率达到 97%；对于没见过的指令，成功率也有 76%。

第二代 RT-2 在次年发布，走得更远。它不再只用机器人专属的数据来训练，而是扩大了范围：像当时很多研究者在做的视觉-语言模型一样，它在互联网上的通用图片上训练，这让机器人能够理解场景中各种物体在哪里。

“一大堆新能力突然被解锁了，”Google DeepMind 的机器人学家卡尼什卡·拉奥（Kanishka Rao）说。他主导了两代模型的开发。“我们现在能执行‘把可乐罐放到泰勒·斯威夫特的照片旁边’这种指令了。”

2025 年，Google DeepMind 进一步融合了大语言模型和机器人的世界，发布了 Gemini Robotics 模型，在理解自然语言指令方面有了进一步提升。

Covariant - RFM-1

2017 年，在 OpenAI 关闭第一支机器人团队之前，一批工程师从中拆分出来，创办了一个叫 Covariant 的项目。他们的目标不是造科幻片里的人形机器人，而是造最务实的那种：一条能在仓库里拿东西、搬东西的机械臂。Covariant 构建了一套类似 Google 基础模型思路的系统，把它部署到 Crate & Barrel 等公司运营的仓库里，同时把这些仓库当作数据采集管道。

到 2024 年，Covariant 发布了一款机器人模型 RFM-1，你可以像跟同事说话一样跟它互动。比如你先给机械臂看一堆筒装网球，然后让它把每一筒分别放到不同的区域。机器人还能做出回应——比如预判自己可能抓不稳这个物品，然后主动问你应该用哪种吸盘。

这类交互在实验室里做过，但 Covariant 是在大规模的真实环境中落地。公司在每个客户的场地都部署了摄像头和数据采集设备，源源不断地给模型反馈更多训练数据。