在大模型的加持下,机器人的热度持续高涨。

除了炒菜、煮咖啡、叠衣服等出圈的家务场景,机器人也在To B端加速落地。马斯克近期表示,今年年底Optimus有望在特斯拉工厂执行任务,计划在2025年底前对外销售Optimus。

2024将是机器人的质变之年吗?大模型能否解决机器人“大脑”面临的挑战?哪些大模型的技术方向将给机器人的发展带来根本性飞跃?

九合创投举办的闭门机器人沙龙邀请了学术界、产业界的嘉宾,与九合系创始人们,共同探讨大模型在机器人领域的落地思考。

我们整理了部分观点,分为上下两篇推出,以下为主题演讲的精彩回顾。

王啸

九合创投创始人

Robot一词诞生于1920年捷克作家卡雷尔·恰佩克所创作的《罗梭的万能机器人》,自此的近百年中,机器人在幻想与应用的交织中,一直不停的向前发展。

这个市场一直在爬坡,逐渐到了一个相对满足商业化需求落地的节点。现在一些专用机器人已经被广泛应用,比如工业机器人提高生产效率,扫地机器人实现了在专用环境中的专项功能。

每一次技术的跃升都是阶梯式的,并不是一条平滑的曲线。比如2017年我们投资了自动驾驶公司Momenta,本质是由于图像识别能力的突破。这之后人工智能平淡了好多年,直到2022年,大模型又让AI再次活跃起来。

但是人类的需求多种多样,机器人能不能泛化的去执行各种任务,能否从专用机器人发展到通用机器人?

大模型的爆发,突然打开了新世界。人形机器人迎来了加速落地的契机:AI大模型成为机器人的大脑,运动控制器负责小脑,躯干负责末端执行。

从上层看,这一波的机会主要是算力加大模型的泛化能力。把人的需求和具体的行动能力结合在一起,使AI大脑和硬件之间有效配合。无论在大脑还是硬件侧,都有很多新机会。

算法和硬件能力是机器人创业成功的砝码。中国制造能力很强,如果找准场景,有机会诞生一家类似特斯拉的公司。关键在于如何适应需求,用技术去解决需求当中的问题。

机器人领域的创业机会正在爆发,虽然离真正落地并形成规模化的使用和生产,还需要很长一段时间,但是技术的浪潮已经在机器人领域滚滚向前。

相比于确定性强的事情,创新性和突破性更强、风险更大的方向,更适合创业公司去探索,非常期待创业公司在具身智能的浪潮中大显身手。

张家兴

IDEA研究院讲席科学家

预训练是大模型价值的起点,也是最聚焦的地方,需要海量数据和极大的算力,基本是巨头要做的事情。这是大模型的构建基础,而场景数据就会小很多。

智能体的构建强调多步骤多模型调用,多模型的协同,以及各种组件的互相协作,非常考验对架构的设计能力。大模型从最初的构建到最终的落地,是一个完整的技术链条。因此当讨论大模型的时候,不能只是预训练,也不能只讨论调用模型,需要全盘的思考。

到底怎么把大模型做出来,是科学还是技术?是工程还是手艺?其实很难说清,但这其中一定是数据发挥着巨大的作用。

通用性、数据稀疏、非确定和任务描述是机器人领域遇到的四个挑战。那么大语言模型能否应对这些挑战。

  • 大模型是知识存储体。过往的知识存储是事先分出很多步骤,设计结构以及提问形式。现在大模型本身就是知识的存储,这依赖于数千亿的模型参数。知识分成不同层面,有场景知识、领域知识、世界知识和常识。大模型要知道世界上所有的事情,所以通用大语言模型训练更多是在世界知识层面。

  • 指令跟随:大语言模型彻底改变了AI对任务的描述方式。之前为了不同的任务,我们要做不同的模型,现在做一个模型,就可以用自然语言描述就可以定义任务,还可以通过指令指导任务执行。

  • 推理:逐步生成推理过程,也就是思维链,这是大模型一个非常重大的进步。

尽管GPT4很强,但是落到专门能力,王者还是属于专门模型对机器人亦是如此,在特定场景通过自然语言描述之后自动生成程序,让机器人自动执行。

从Google RT-2到Stanford ALOHA,这些标志性的事件让行业都在关注具身智能。大语言模型对多模态的理解,对机器人非常重要。

打开网易新闻 查看精彩图片

用大模型直接控制机器人带来很多优势:

第一,基于互联网的数据进行预训练,就具备了通用的世界知识和常识,减少了通用性错误的问题;

第二,通过多种机器人多个任务的预训练,能够让机器人在少样本甚至没有样本的情况下,学习新的任务。这一点在Google RT-2里体现的最明显,解决了数据稀缺的问题。

第三,通过自然语言来推理,完成多步骤复杂任务,应对非确定环境。

第四,走向通用机器人非常重要的一步,就是做自然语言指令的追随,用人类语言描述任务。因为任务是难以穷尽的,没办法预先设定所有的任务,那么用自然语言描述,去让机器人去做任务就非常重要。这个基本逻辑跟ChatGPT是一样的。

大模型时代,机器人的硬件和软件界面正在发生变化。过去,在机器人领域,大家很重视硬件,尤其是在一些特定场景下追求高精度,这必然带来高成本。与此同时,软件没有那么强,一般是专用的小模型。

而在未来,机器人领域可能会发生很大的变化,对硬件的要求下降,变成低精度低成本,在软件上利用大模型来补齐硬件。虽然现在算力还很贵,但是随着算法算力的进步,最终成本会降下来,势必将让通用机器人走进千家万户。

殷鹏

香港城市大学助理教授

打开网易新闻 查看精彩图片

特斯拉内部的计划表是:2023年,Tesla bot完成基础任务设计;2026年,Tesla bot取代工厂员工30%的工作效率;2029年,Tesla bot取代33%工厂员工。根据他们的技术能力和规划来看,基本上可以完成。

不管特斯拉人形机器人做家务的真实性如何,能够看到末端的敏感程度已经达到了很高的精度操作。目前斯坦福大学人形机器人是3万美元的硬件本体,放在中国生产的话,如果是比较基本的需求,成本可能只有三到五万人民币。

根据马斯克的推测,未来全球机器人将有100亿台的销量,如果每台平均2万美元,那将是一个巨大的市场。如果低配版的人形机器人可以批量化生产,这意味着一个全新的工业革命时代即将到来,这个关键的时间可能在2030年。

高精定位导航、高精感知建模,和通用世界模型(针对机器人终身在线学习的大模型系统)对于机器人的发展至关重要。

机器人是具备感知层、记忆层、决策层和执行层的一体化通用机器人系统。整个链条从底层向上做,当底层感知层(高精度定位、高精度建模和环境感知)打通之后,上面就是记忆层,也就是机器人终身学习在线系统,使得机器人拥有短时记忆和长时记忆,形成一个时空数据库。一旦有了数据,就有了持续决策的可能性。

实际上,机器人并不需要特别复杂的大模型系统,核心还是在于感知层和记忆层是否发展成熟,数据是否稳定。因此现在的人形机器人公司都在强调如何获取持续有效的数据。最终到决策层,根据数据来进行链式决策,通过大模型问询和子模型更新来不断作出决策,指导优化末端执行。

周闻钧

智用人工智能应用研究院CTO

斯坦福开源的Mobile ALOHA项目让具身智能概念爆火,它是利用人的操控来进行小样本的训练,50次真人操控训练可以达到90%的自主成功率,是一个典型的小样本学习的场景。

这给我们带来的启发是,未来即使是同一款机器人,随着实际使用场景和训练的不同,它会形成不同的能力,机器人开始有了差异化。如果这种习得的能力可以在机器人之间共享,可能将打开众包训练生成能力的想象空间。

目前工业机器人的感知和执行能力非常强,但在做决策和预测方面的能力极差,没有办法做出编程以外的动作。有生成式AI或者大语言模型的加持以后,游戏的规则就改变了,大模型造出了一个多种模态输入的大脑,并且实现了具备推理的思维链能力。

举一个高精密工业设计场景的例子,EDA龙头新思科技引入了大模型,构造copilot协助芯片设计,copilot不仅对电路图的设计给出意见,列出步骤,甚至能够指出模块是否适合电路图的功能场景。即便专业的芯片设计人员都需要借助copilot进行查询和确认。

当大模型加持具身智能之后,我们认为两个技术方向的发展会给它带来质的飞跃。

首先是端侧大模型,由于存在云端推理的网络延迟、全球算力紧缺、数据合规和隐私等方面的问题,对移动设备上端侧大模型的需求越来越高。技术路径方面,做小尺度的模型或者模型压缩这两条路线正在并行发展。目前端侧已实现1 Billion参数模型,预计6到12个月内可以实现10 Billion的规模。

第二是多智能体协同。不同厂家机器人的协同和兼容一直是个难题。智能体也有可能形成差异化的能力,并且大模型的输入输出都是自然语言,自己会进行翻译,天生能够互相交流,不需要复杂的数据交换协议,能通过交互和讨论,把能力结合在一起。

总结而言,当下工业机器人的智能化仍依赖于传统机器学习,但云端/私有大模型构建的“企业大脑”已经纷纷开始建设,预计未来6到12个月内会有端侧大模型加持的工业机器人出现。这种机器人不是效率优先的精益工业流程的量产型机器人,而是探索型的自主行动机器人,这是更符合时代潮流的路径。