来源:市场资讯
(来源:麻省理工科技评论APP)
机器人学家过去的特点是:梦做得很大,东西造得很小。他们满怀壮志要匹敌甚至超越人体的惊人复杂度,然后把整个职业生涯花在给汽车工厂打磨机械臂上;目标是 C-3PO(《星球大战》里的人形机器人,能说六百多万种语言,会走路、会社交、有情感反应,是科幻电影中最经典的“像人一样的机器人”形象),做出来的是扫地机器人 Roomba。
这些研究者中许多人的真正野心,是科幻片里的那种机器人——能在世界中自由移动、适应不同环境、安全而有益地与人互动。对有社会使命感的人来说,这样的机器可以帮助行动不便的人、缓解孤独感、承担对人类来说太危险的工作。对更看重商业前景的人来说,它意味着一种取之不尽、不用发工资的劳动力来源。但不管出发点是什么,一段漫长的失败史让硅谷大多数人不敢在“有用的机器人”上下注。
这个局面变了。机器还没造出来,但钱已经涌进来了:仅 2025 年一年,企业和投资者就向人形机器人砸了 61 亿美元,是 2024 年投资额的四倍。
发生了什么?机器学习与世界互动的方式经历了一场革命。
设想你想在家里装一双机械臂,只让它做一件事:叠衣服。它该怎么学会?你可以先写规则:检查面料,算出它被拉伸到什么程度会撕裂;识别衬衫的领子;把夹爪移到左袖,抬起来,向内折叠精确到多少距离;右袖重复一遍;如果衬衫转了方向,相应地调整方案;如果袖子拧了,纠正它……规则的数量很快就会爆炸,但如果真的把每种情况都穷举了,确实能产出可靠的结果。这就是机器人学最初的手艺:预判一切可能性,提前写好代码。
大约 2015 年前后,前沿领域开始换打法:在数字世界里搭建机械臂和衣服的仿真模型,每次成功叠好就给程序一个奖励信号,失败了就扣分。通过反复试错、迭代几百万次,程序自己摸索出越来越好的技巧——跟 AI 学下棋用的方法一样。
2022 年 ChatGPT 的问世引爆了当前这轮热潮。大语言模型在海量文本上训练,工作原理不是试错,而是学会预测一句话里下一个词应该是什么。类似的模型被移植到机器人领域后,很快就能吃进图像、传感器读数和机器人关节的位置信息,预测机器接下来该做什么动作,每秒钟发出几十条运动指令。
依赖能吃下大量数据的 AI 模型,似乎不管机器人是需要跟人说话、在环境中移动,还是完成复杂任务,都管用。而且它还和其他想法结合在一起,比如即使机器人还不完美也先放出去,让它在真实工作环境里继续学习。今天,硅谷的机器人学家们又开始做大梦了。
Jibo - Jibo
早在大语言模型时代之前,一台可以活动的社交机器人就已经在和人聊天了。
2014 年,MIT 的机器人学家辛西娅·布里泽尔(Cynthia Breazeal)向世界介绍了一款没有手臂、没有腿、没有脸的机器人,叫 Jibo。它看上去像一盏台灯。布里泽尔的目标是为家庭打造一款社交机器人,这个想法通过众筹拉到了 370 万美元。早期预订价 749 美元。
早期的 Jibo 能做自我介绍,能跳舞逗孩子开心,但也就仅此而已了。它的愿景一直是成为一种有实体的助手,从日程管理、处理邮件到讲故事什么都能干。它确实赢得了一批忠实用户,但公司最终在 2019 年关闭了。
回头来看,Jibo 最需要的是更好的语言能力。它当时的竞争对手是苹果的 Siri 和亚马逊的 Alexa,而这些技术在当时都依赖大量的脚本预设。笼统来说,当你跟它们说话时,软件会把你的语音转成文字,分析你想要什么,然后从预先批准的回复片段里拼出一个回应。这些片段可以很有趣,但也重复、无聊——用一个词来说就是“很机械”。对一款定位社交和家庭的机器人来说,这是硬伤。
此后发生的事情大家都知道了:机器生成语言的方式发生了一场革命。如今任何一家头部 AI 公司的语音模式都已经做到了引人入胜、令人印象深刻,多家硬件初创公司正在尝试(但大多失败)打造利用这项能力的产品。
但新能力也带来新风险:预设脚本的对话不太会跑偏,AI 生成的对话就不一定了。比如一些流行的 AI 玩具就曾跟孩子聊过如何找到火柴和刀。
OpenAI - Dactyl
一只用仿真训练的机器手,尝试模拟真实世界的不可预测性和变化。
到 2018 年,所有顶尖机器人实验室都在努力抛弃旧式的脚本规则,转而通过试错来训练机器人。OpenAI 尝试在虚拟环境中训练它的机器手 Dactyl——用机器手和手掌大小的立方体的数字模型。立方体的每个面上有字母和数字,模型可能设定一个任务,比如“转动立方体,让带有字母 O 的红色面朝上”。
(来源:麻省理工科技评论)
问题在于:机器手可能在仿真世界里做得非常好,但当你把这个程序拿到现实世界、让它操作真正的立方体时,两个世界之间的细微差异就可能导致失灵。颜色可能略有不同,机器人指尖的可变形橡胶可能比仿真里的更有弹性。
解决方案叫做“域随机化”(domain randomization):你本质上是创造出几百万个略有差异的仿真世界,每个世界里的摩擦力、光照、颜色都被随机调整;接触了足够多的变化之后,机器人在真实世界中操控立方体的能力就会更强。这个方法在 Dactyl 上成功了。一年后它用同样的核心技术完成了更难的任务:解魔方(尽管成功率只有 60%,面对特别复杂的打乱时只有 20%)。
不过仿真技术有其局限性,这种方法在今天扮演的角色已经比 2018 年小得多了。OpenAI 在 2021 年关闭了机器人业务,但最近重新启动了这个部门,据报道正在聚焦人形机器人。
Google DeepMind - RT-2
从互联网上的海量图片中学习,帮助机器人把语言指令转化为动作。
2022 年前后,Google 的机器人团队在做一些有点奇怪的事情。他们花了 17 个月,把机器人遥控器交给人类,拍下他们做各种事情的视频——从拿起薯片袋到开罐头。团队最终编录了 700 种不同的任务。
RT-2(全称 Robotic Transformer 2,即"机器人变换器 2 号")引入了互联网数据,帮助机器人理解它们看到的画面。(来源:麻省理工科技评论)
Google 的目的是构建和测试机器人领域最早的大规模基础模型之一。思路和大语言模型类似:把大量文本输入进去,将其标记化为算法能处理的格式,然后生成输出。Google 的 RT-1 接收的输入包括机器人看到的画面和机械臂各部件的位置信息,然后接受一条指令,将其转化为驱动机器人运动的指令。对于见过的任务,它的成功率达到 97%;对于没见过的指令,成功率也有 76%。
第二代 RT-2 在次年发布,走得更远。它不再只用机器人专属的数据来训练,而是扩大了范围:像当时很多研究者在做的视觉-语言模型一样,它在互联网上的通用图片上训练,这让机器人能够理解场景中各种物体在哪里。
“一大堆新能力突然被解锁了,”Google DeepMind 的机器人学家卡尼什卡·拉奥(Kanishka Rao)说。他主导了两代模型的开发。“我们现在能执行‘把可乐罐放到泰勒·斯威夫特的照片旁边’这种指令了。”
2025 年,Google DeepMind 进一步融合了大语言模型和机器人的世界,发布了 Gemini Robotics 模型,在理解自然语言指令方面有了进一步提升。
Covariant - RFM-1
2017 年,在 OpenAI 关闭第一支机器人团队之前,一批工程师从中拆分出来,创办了一个叫 Covariant 的项目。他们的目标不是造科幻片里的人形机器人,而是造最务实的那种:一条能在仓库里拿东西、搬东西的机械臂。Covariant 构建了一套类似 Google 基础模型思路的系统,把它部署到 Crate & Barrel 等公司运营的仓库里,同时把这些仓库当作数据采集管道。
到 2024 年,Covariant 发布了一款机器人模型 RFM-1,你可以像跟同事说话一样跟它互动。比如你先给机械臂看一堆筒装网球,然后让它把每一筒分别放到不同的区域。机器人还能做出回应——比如预判自己可能抓不稳这个物品,然后主动问你应该用哪种吸盘。
这类交互在实验室里做过,但 Covariant 是在大规模的真实环境中落地。公司在每个客户的场地都部署了摄像头和数据采集设备,源源不断地给模型反馈更多训练数据。
一台 Covariant 机器人在演示“入库分拣”。这是仓库中常见的任务,把物品放到分拣机或传送带上。(来源:麻省理工科技评论)
它还不完美。2024 年 3 月的一次演示中,面前摆着一堆厨房用品,机器人被要求把香蕉放回原来的位置。它先拿起一块海绵,又拿起一个苹果,接着又拿了一堆别的东西,折腾半天才完成任务。
联合创始人 Peter Chen 当时告诉我,它“还不理解回溯自己步骤这个新概念。但这是个很好的例子——在缺乏好的训练数据的场景里,它可能还不太行。”
Peter Chen 和另一位联合创始人彼得·阿贝尔(Pieter Abbeel)后来被亚马逊聘用。亚马逊目前在许可使用 Covariant 的机器人模型(亚马逊没有回应关于具体用途的提问,但该公司仅在美国就运营着大约 1300 座仓库)。
Agility Robotics - Digit
多家企业正把这款人形机器人投入真实工作场景。
涌入机器人初创公司的新一轮投资,主要瞄准的不是灯状或臂状的机器人,而是人形的。人形机器人理论上可以无缝进入人类目前工作的空间和岗位,不用为了适应什么巨型机械臂之类的新形态去改造流水线。
说起来容易做起来难。在人形机器人确实出现在真实仓库中的少数案例里,它们往往被限制在测试区和试点项目中。
(来源:麻省理工科技评论)
热门跟贴