机器之心报道

机器之心编辑部

具身智能,简单来说,就是赋予 AI 一个「身体」,让这颗聪明的大脑在物理世界中行动自如。

把这颗大脑升级成世界模型 —— 它拥有记忆、直觉和常识时,机器人可以不再机械地按训练行事,而是能够灵活变通,具体问题具体分析。

于是,在这两个火热的概念齐头并进之时,这样的展示层出不穷,机器人为你扫地、喂猫、铺床、做饭,以后养老不用愁,放心交给机器人就好了。

但是为什么我们身边还没见到一个这样的机器人呢?

带着这个问题,我们围观了今年的智源论坛 2024 具身与世界模型专题峰会。当前学界前沿最聚焦具身智能的哪些问题?如何让大模型飞升的 scaling law,在机器人领域也获得回响?我们距离真正的世界模型,还有多远?

打开网易新闻 查看精彩图片

从前沿技术成果,到最新实践应用,来自学术界和产业界的代表们的精彩分享贯穿全天。

大佬们具体都聊了什么?重点都已经划出来了!


Scaling Law 的成功,机器人也想复刻

参数量越大,模型性能越高,这一原则在大模型领域已经得到了充分验证。如何在机器人领域,活用「Scaling Law」的公式,这是产业面临的共性问题。

作为人工智能的创新引领者,联合产学研协同突破行业痛点,也是智源研究院一直以来的核心愿景。

一开场,智源研究院院长王仲远详细介绍了智源大模型「全家桶」。其中,最引人瞩目的要数首个原生多模态大模型 Emu3。

打开网易新闻 查看精彩图片

它可以融会贯通文本、图像、视频三种模态,也首次证明了 Scaling Law 在多模态大模型的可行性。

打开网易新闻 查看精彩图片

如何让 scaling law 跨越不同任务、本体、场景,构建泛化超强能力的大模型?这是智源具身多模态大模型研究中心负责人仉尚航近来关心的问题。在此次分享中,她展示了一系列基础模型的新成果。

打开网易新闻 查看精彩图片

人类在思考问题时有快慢之分 —— 既有脱口而出的「快思维」,也有静心推理的「慢思维」。

受此启发,她带领研究团队提出了 RoboMamba、MR-MLLM 等一系列多模态大模型。详情可以参考机器之心的报道:《北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作》。

在打破模态的突破之上,仉尚航的下一步是把模态的原生能力升维到 4D—— 构建更好的 4D 世界模型与数据集。