打开网易新闻 查看精彩图片

来源:智源社区

2024年11月5日,北京智源人工智能研究院主办的“智源论坛·2024具身与世界模型专题峰会”在智源大厦举行,智源研究院理事长黄铁军、智源研究院院长王仲远、智源研究院副院长林咏华出席大会。智源具身多模态大模型研究中心负责人、北京大学研究员仉尚航,智源具身智能研究中心负责人、北京大学助理教授、银河通用创始人王鹤,Google DeepMind研究科学家,谷歌RT1、2,SayCan作者Ted Xiao以及来自清华大学、香港大学、康奈尔大学、UC Berkeley、英国曼彻斯特大学、大湾区大学(筹),中国科学院等知名高校和研究机构的学者专家,加速进化、傅利叶、乐聚机器人、星尘智能等具身智能头部企业的创始人、CEO围绕具身智能和世界模型的前沿方向、技术实践进行了主题分享与深度探讨,以下是观点集锦(下)。

回放链接:https://event.baai.ac.cn/live/855

Part.

01

人形机器人场景与产业探索

冷晓琨丨乐聚机器人创始人

打开网易新闻 查看精彩图片

2023年以后,人形机器人领域的发展才慢慢受关注起来。从这一年可以看出,技术路线已经逐渐同质化,正在由一个大科学问题逐渐向工程方面调整。在细节上,每个团队的实现方式不一样,但整体思路都在不断做泛化、强化学习和应用。

团队的发展定位很清晰,就是把本体和操作系统这两部分做好之后,再把具身智能、应用包和应用场景开放出来。过去几年,在操作系统中,工程性问题和底层的算法优化问题被分割成两个领域,一部分属于计算机,一部分属于机器人。去年团队实现的最核心业务就是把Linux底层进行充分的优化,保证了人形机器人能持续稳定地输出。

从早期到现在,团队做人形机器人是以运动控制起步,核心是以Model Base为主。强化学习暂时很难应用于产业化,主要面临两个问题:第一,批量化复制问题,尤其是基于现有情况做强化学习训练,如果批量化出货,难以让每一台机器人达到一致的运动效果;第二,运动控制的精细化问题,强化学习训练的机器人,行为有很大的不确定性。如果是基于Model Base,做好足够的优化,机器人的可观复制性和精确性是可以确定的。接下来的研究,会采取基于ModelBase控制算法产生的数据数据作为强化学习模型参考的方式对机器人进行训练。

接下来的问题是人形机器人能进入到什么场景中应用。科研是开发者群体的培养过程,因为人形机器人的研发不是一个团队就能完成所有部分,所以要尽可能把产业链上下游整合。现阶段完成的是一个科研版的平台,把案例做好标准化,大模型都是跟第三方的合作,比如灵巧手。

打开网易新闻 查看精彩图片

目前对人形机器人产生核心影响的部分在于大模型。人形机器人到底能深入应用到什么场景,还是依靠于大模型。所以第一步的定位是让人形机器人进入到和物理世界交互尽可能少的场景,比如商服和展厅。首先在展厅代替讲解员。搭载大模型以后,必须要用Model Base的方式,人形机器人才可以在展厅行走。第二个是代替导购员。从现实角度,人形机器人可以节省很多成本,如果用在高端的店里,还能提高品牌的保障性。第三是服务场景。现在还在探索阶段。

今年人形机器人在工业场景上的落地案例主要包括三个,一汽、亨通和蔚来汽车。现在的实现场景主要与辅装、检测相关,在这些场景用人形机器人替代人工,因为其他形式人进不去,这才是人形机器人真正要解决的事。

回顾最近一年,人形机器人的发展达峰时间比其他产业要来得更快。一旦达峰之后,低谷期也会来临。接下来要考虑的不是让人形机器人如何实现走路或爬山,而是要在产业中得到真正的应用。一旦有落地的应用,无论是资本还是社会能够看到信心,人形机器人才会有下一步的发展。

Part.

02

具身技能-得心应手

王煜丨大湾区大学(筹)讲席教授、先进工程学院院长

打开网易新闻 查看精彩图片

这次报告的内容主要聚焦在戴盟机器人的定位、市场路线以及对将来机器人落地的要求。这里强调的是机器人需要有技能进行准确和精细的操作。人形机器人创新发展的关键包括技术攻关、大脑、小脑、大模型几个方面。基础件包含高精度传感器,列为视觉、听觉、嗅觉和触觉四种类别,使用这四觉建立模型,才能指导人形机器人产生通用技能。其中触觉传感器很重要,触觉信息的获得和泛化涉及到小模型甚至是大模型的应用。

在半导体3C的装配场景中,牵涉到样品不规范,零件有大有小等问题。因此半人形的机器人就有了一定的应用空间,主要用于定位,涂胶,抛光或者检测。这个应用场景对机器人提出了一个非常重要的要求,就是它要能有精细操作技能。

在技能学习中,触觉是一个重要的元素。人的触觉有感受能力、有动感、力感和滑感。从工业角度看,如果机器人能够实现像人一样的技能,一定需要有很好的触觉传感器,具备多维度、多密度的感知力,最后实现四触闭环,完成有技巧的操作。戴盟就是希望把这样的技术和学习方法、数据采集,以及模型的建立,能够落实到人形机器人上。研究认为需要通过大语言模型或深度学习,把具身技能传输给机器人。有了这些工序以后,机器人才能学会一种技能,像人一样拧螺丝钉。

打开网易新闻 查看精彩图片

现在市面上流行的是以光学为基础的触觉传感器,戴盟也是这个方向的领军者。从2018年开始到现在团队做成了一种性能非常稳定的产品,有12种不同的模态,能提供现代机器人学习时所需要的触觉力的模态。和其他的电阻电容传感器相比,只有光学传感器可以实现点阵式、高密度,能测力和变形分布。其他传感器能够准确测试一些力的分布,但分布性就差一点,而且从成本来讲也不容易做到密、好和小。

从最直观的角度来讲,能做到像人这样的灵巧手,再加上丰富的触觉感知和有很好的学习方法学会这些技能,机器人就实现了精准操作的目标。通过实际训练,才能把最高级的操作技能传输给机器人,这也是以后要做的事。

戴盟团队的技术路线十分专一,这是我们的特长,能把最关键的技术和需求打通。具身技能能够赋予机器人得心应手的能力,以后希望和做大模型、大装备、本体和控制的团体结合在一起,实现领域互补。

Part.

03

机器人与世界模型

来杰丨星尘智能创始人兼CEO

打开网易新闻 查看精彩图片

我们对世界模型的追求,源于杨立昆的构想。我在百度和腾讯的经历让我认识到操作能力对数据收集和世界模型的重要性。人类进化中,直立行走解放了双手,对大脑发展有巨大影响,机器人也应如此。我们认为机器人正在走功能模型到世界模型的进化之路。我们的设计理念是“Design For AI”,即让机器人在真实世界中产生交互并收集数据,同时确保交互安全,减少伤害。

我们的机器人技术展现了顺畅的交互,这是我们对机器人温柔设定的体现,它有安全的保护机制,使世界模型可以在不损害自身、设备或对象的情况下收集数据和进行尝试。我们相信AI和机器人能形成正向循环,因此我们让机器人不断学习,达到AI和机器人最匹配的状态。仿人设计是“Design For AI”的关键,我们从视频中学习动作,如跳舞和打太极,这是我们理解观察并复现动作的第一步。

我们特别注重力、触、维度的信息收集和学习,希望给世界模型提供伴随着成长、在安全保护机制下拥有足够上限的机器人。世界模型能补全信息和预测结果,它需要满足当下常识性认知的小世界模型。我们发现这些能力不以模型化的方式出现,而是通过数据和模型训练产生。

Part.

04

仿生拉压体机器人原理与技术

任雷丨国家特聘专家,曼彻斯特大学终身教授,吉林大学唐敖庆讲席教授

打开网易新闻 查看精彩图片

我们的研究关注如何利用仿生技术克服当前人形机器人在安全性、操控性和能耗方面的限制。人形机器人在物理接触中安全性差,操控能力低,且能耗高,使其难以在家庭和生产中普及。为了应对这些挑战,团队开发了具有拉压体结构的仿生机器人,通过模仿人体的柔性和多自由度关节设计,使机器人更接近人类的自然运动模式。

拉压体机器人与传统刚性结构机器人存在诸多不同不同。传统机器人多使用刚性材料,设计的关节通常为铰链式,这种设计导致系统僵硬且能耗高。而人体90%的重量由柔软的组织组成,关节结构也更加复杂,允许多自由度的精细运动。受此启发,我们提出了“仿生拉压体”概念,以受拉的软组织和受压的硬组织结合构成高柔性的系统,使机器人在行走和操控上更接近人类。

在实际应用方面,团队的拉压体机器人已经实现了接近人类自然步态的行走,并显著降低了能耗,能耗仅为人体的1.38至2.14倍。此外,他们还开发了仿生拉压体灵巧手,这种手不仅具备变刚度和增大力作用空间的能力,还具备类似无极变速系统的柔性腱鞘设计,从而提升了抓握的灵活性和稳定性。

通过拉压体技术,团队成功解决了传统刚性结构在安全性、操控性和能耗上的瓶颈,为人形机器人的实际应用提供了新的思路。

Part.

05

圆桌:空间智能和世界模型

打开网易新闻 查看精彩图片

Q1. 林咏华:如何看待用于机器人的世界模型技术路线?

代季峰:世界模型对增强具身大模型至关重要,它能够提升技术上限,帮助模型进行轨迹预测和更正。尽管如此,视频信息的有效表征仍然是一个挑战,多模态的融合也非常关键。我们需要探索基础性技术,以实现具身大模型的潜力。

Q2. 林咏华:未来工业机器人打造空间智能或世界模型时,重要的定义或要点是什么?

陈睿:对于工业机器人而言,空间智能的关键在于精准性和泛化性。我们需要结合视觉和触觉信息来实现高成功率,同时保证行动的稳定性。物理空间的模型对于确保行动的正确性至关重要。工业机器人对于节拍和速度也有很高的要求。

Q3. 林咏华:如何看待将自动驾驶的经验迁移到机器人领域,构建空间智能或世界模型?

李弘扬:自动驾驶的经验确实可以迁移到机器人领域。端到端自动驾驶中的感知、决策一体化和人形机器人。我们关注的是行动的轨迹和恢复程度,而不仅仅是视频生成的逼真度。潜在世界模型可能是一个方向,它强调的是嵌入向量的长度,而非视频生成的逼真度。

Q4. 林咏华:用于通用机器人大脑的世界模型最应该具备的要点是什么?面临的最大挑战又是什么?

来杰:世界模型对机器人的赋能主要在于信息补充和预测未来动态。星尘智能致力于帮助世界模型收集数据、尝试和交互。我们的目标是打造一个能够持续成长的世界模型终端和载体。

Q5. 林咏华:要达到高度准确的3D模型生成,还有哪些差距?

黄思远:物理可控性是我们团队长期研究的方向。当前的生成模型在物理属性上的表现非常不足。我们需要一个物理意义上的指标来衡量模型的物理可解释性和可控性。此外,我们需要将交互成功率等指标加入到模型中,以实现更深入的交互。

Q6. 林咏华:算法突破、数据、算力或硬件,哪一项才是构建世界模型的最大挑战?

陈睿:我选择硬件。硬件的提升对于机器人完成任务至关重要,尤其是在传感和执行方面。

代季峰:我选择算法突破。深度学习算法尚未完全理解生物学习的机制,这是我们需要探索的未知领域。

来杰:我选择数据。数据的融合性和多模态性对于解释世界运行至关重要。

李弘扬:我选择数据。数据量不足是实现AGI的一大障碍,我们需要更低成本、更高效的数据采集方法。

黄思远:我也选择数据。场景级别的数据对于提升机器人的交互能力和世界模型的泛化能力至关重要。

Part.

06

What's Missing for Robotics Foundation Models?

Ted Xiao丨Google DeepMind研究科学家,RT1、2以及SayCan作者

打开网易新闻 查看精彩图片

过去十年,传统机器人采用“感知-计划-执行”的模式,通过感知系统识别环境状态,规划模块完成优化,执行模块控制动作。但近年来,部分模块被大规模「视觉-语言」模型取代,利用语言模型进行规划。然而,这些组件并非为机器人设计,输入输出通道带宽的狭窄限制了其潜力。

2024年及以后,机器人领域正逐渐突破模型间狭窄的带宽限制,例如像计算机视觉或语言建模那样,将多种任务视为相同的科学能力。我们需要进一步覆盖机器人完整的端到端技术栈。当前机器人系统需要基础模型的通用性和规模,尤其是在处理非结构化环境时。我们需探索机器人大模型的Scaling Law、高带宽训练以及可扩展评估方式。

RT-2等研究展示了通过结合互联网数据和多样化机器人数据的潜力,不仅提升了分布外任务的泛化性能,还通过多机器人数据集的整合实现了跨模型的正向迁移。然而,仍需克服训练数据过拟合及低级控制与高级推理不兼容等挑战。

机器人领域的“Scaling Law”研究仍在起步阶段。在充分理解数据与模型规模的重要性前,扩大数据收集可能并不明智。通过高带宽上下文和自然语言接口的研究,我们或许能为未来机器人学习开辟新的路径。

当下机器人领域的高级语言条件控制试图用语言表达物理世界的复杂性,但这未能涵盖成功操作现实世界所需的全部信息(如轨迹、旋转、抓取姿态和运动学约束等)。此外,我们利用视觉语言模型(VLM)理解机器人动作。如Pivot Prompting,将动作映射到图像中并标注,让VLM选择最优方案。此过程展现了VLM对动作因果关系的初步理解。同时,RT Hierarchy通过细化语言命令层次结构,提高了对复杂数据的学习能力,并允许专家干预高层规划,无需改动底层策略。

为实现更高带宽的机器人策略,这些方向证明了运动和轨迹表示的潜力。然而,我们仍需改进机器人领域的可扩展性评估。

当前对机器人基础模型的理解正在形成,但对高效评估和新数据收集方式的探索仍在早期阶段。未来,我们还要对机器人硬件操作复杂性和资源需求,进一步推进技术的规模化应用。

Part.

07

通用类人灵巧操作机器人

王鹏丨中科院自动化所研究员

打开网易新闻 查看精彩图片

十年前,我们主要关注的是工业和特种领域的专用操作能力,而现在我们希望机器人能具备通用操作能力,能在多样化场景中完成不同任务。特斯拉的机器人灵巧手就是一个例子,它从最初的11个关节自由度和6个驱动自由度,逐步发展到更高的自由度,以便适应更多任务需求。实现这种通用能力不仅依赖于硬件自由度的提升,还需要软硬结合,通过AI算法提升机器人的学习与适应性。

机器人通用能力的实现可以分为两大类:第一种是通过遥操作,利用人类操控提供实时数据;第二种是全自主操作。除此之外,还有一种人机融合方式,将人类的智能和机器智能结合,以提高任务的安全性和可靠性。这种方式在特种应用领域中尤为重要。

我们目前的研究集中在两个方面:一是提升硬件通用性,包括设计多自由度灵巧手和数据手套等末端机构;二是开发适配这些硬件的智能算法。为此,我们构建了一个从二指到多指的操作体系,使机器人具备对多种对象和复杂环境的适应能力。同时,我们还关注如何通过工具使用和人机协作进一步提升机器人的通用操作能力,使其能够在服务、工业等场景中更好地落地应用。

Part.

08

闭幕致辞

黄铁军丨智源研究院理事长

打开网易新闻 查看精彩图片

在闭幕致辞中,智源研究院理事长黄铁军指出,智能是环境的产物。人类智能来源于对环境的适应演化以及对世界的抽象。智能应该是大大小小各种形态的,不能变成一个完全统一的智能。具身智能的发展是必然趋势,无论是人形还是其他形态的机器人,未来需要庞大的产业群配套,促进具身智能的关键部件与材料,软件与硬件协同发展。

本文版权归智源社区所有

阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”

打开网易新闻 查看精彩图片

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告