机器人前瞻(公众号:robot_pro)作者    许丽思编辑    漠影
打开网易新闻 查看精彩图片
机器人前瞻(公众号:robot_pro)作者 许丽思编辑 漠影

机器人前瞻2月10日报道,今天,阿里巴巴达摩院发布具身智能大脑基础模型RynnBrain。全系列共计7个模型,其中包括 RynnBrain-30B-A3B。

打开网易新闻 查看精彩图片

RynnBrain是业内首个拥有时空记忆的具身大脑基础模型,引入了时空记忆物理世界推理,让机器人具有理解“时”与“空”的能力。

简单来说,就是机器人可以记得过去的轨迹,看懂现在的画面,还能预判未来的动作,具有了全局时空回溯能力,减少了幻觉问题。

比如,在杂乱的桌子面前,机器人正忙着给桌上的食物分类。

突然,它收到了“请帮我拿一个面包”的指令,选择先停下手里的动作,把面包递给人类。

打开网易新闻 查看精彩图片

然后,它再继续转头处理刚刚的未完成的分类整理工作。

在16项具身开源评测榜单上,RynnBrain刷新了纪录(SOTA),超越谷歌Gemini Robotics ER 1.5等行业顶尖模型。

GitHub:https://github.com/alibaba-damo-academy/RynnBrain

项目主页:https://alibaba-damo-academy.github.io/RynnBrain.github.io/

hugging face:https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

一、训练速度提升两倍,让机器人拥有全局时空回溯能力

RynnBrain在Qwen3-VL的基础上训练,还使用了自研的RynnScale架构对Dense模型和MOE模型进行训练优化,能够在同等资源下,训练速度提升两倍。同时,训练数据超过2000万对。

打开网易新闻 查看精彩图片

▲RynnBrain模型架构

RynnBrain能够让机器人实现堪比人类的全局时空回溯能力,关键在于做到了涵盖空间、位置、事件、轨迹等多维度信息的统一表征。其所构建的统一框架,能够把机器人所接触到的各种各样的信息统一映射到模型的输出空间里,将时间维度、空间坐标与语义理解融为一体。

RynnBrain具有物理空间推理的能力,采用了一种全新的“文本与空间定位交错”的推理策略,使得模型在推理时,不仅生成语言判断,还会同步给出对应的空间指向信息。

RynnBrain还拥有良好的可拓展性,能够快速后训练出导航、规划、动作等多种具身模型。以具身规划模型为例,其需要强大预测能力和场景解析能力,但基于RynnBrain为基础,只需几百条数据微调,效果就能超越Gemini 3 Pro,轻松实现SOTA。

打开网易新闻 查看精彩图片

▲RynnBrain具有认知、定位、推理、规划等多重能力

达摩院这次不仅开源了RynnBrain模型,而且配套开放了完整的推理训练代码。

另外,达摩院还开源了全新评测基准RynnBrain-Bench。这是一个用于评估具身理解能力的高维基准测试,从物体认知、空间认知、语义定位和指向交互四个核心维度全面评估模型性能,重点关注模型在连续视频序列中对细粒度信息的理解能力与时空定位精度。

二、实现了16个SOTA,超越谷歌、英伟达的具身顶尖模型

结果显示,RynnBrain,在16项具身开源评测榜单上刷新纪录(SOTA),包括环境感知与对象推理、第一人称视觉问答、空间推理、轨迹预测等,超越了谷歌Gemini Robotics ER 1.5、英伟达 Cosmos Reason 2等具身顶尖模型。

来看看模型在宇树G1上的部署情况:

在执行“把盘子放回原位”的任务时候,G1能够准确识别盘子,并在盘子不停移动的情况下保持对其空间位置的记忆,具有物体记忆与空间记忆能力。

面临三个面包分两个盘子的难题时,机器人的空间规划与长程规划能力使它能找到合适的分配方法,把多出的一个面包叠在中间。

打开网易新闻 查看精彩图片

物体记忆能力与复杂视频理解能力,使机器人能够认出之前被喝过的矿泉水,并在复杂的变换中始终保持对物体的记忆。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

常识理解与中文OCR能力,让机器人能够根据用户“寻找低卡低糖的饮料”的需求,观察瓶身的文字标签,选择出合适的饮料。

打开网易新闻 查看精彩图片

结语:具身模型智能水平,已成为业内亟需解决的关键瓶颈

目前,具身模型的智能水平成了行业发展的关键瓶颈,泛化能力亟待提升。业内主要探索两条技术路线:一条是动作模型,以VLA模型为代表,能直接操控物理世界,但因数据稀缺,泛化能力不足;另一条是大脑模型,比如VLM模型,本身有一定泛化能力,却缺少记忆、动态认知有限,还会出现物理认知偏差,无法支撑人形机器人完成复杂的移动与操作任务。

RynnBrain的出现,在一定程度上解决了具身模型在时空记忆与物理空间推理的短板。达摩院不仅开源了RynnBrain模型,还配套开放了完整的推理训练代码、全新评测基准RynnBrain-Bench,为产业带来了统一的基础设施和评估标准,推动降低了具身智能领域的研发门槛。