ROBOT INDUSTRY
在具身智能领域,智源研究院可谓是“特别”的存在,它不追逐商业蓝海、不蹭行业热点,却得到了一众明星企业的拥护。走进智源具身训练场,我们看见了他们的故事。
跌倒、冲撞、搀扶,在智源研究院,我们看到了人形机器人日常训练中的真实一面。“未来两三年,人形机器人不会进入到家庭满地跑,我非常确定不会发生。”智源研究院院长王仲远说道。
当各大厂商争相卷硬件、卷模型、卷数据时,智源研究院作为一家非营利性的“第三方”,始终冷静审视着行业迈出的每个脚印。“赛道周期非常长,里面的变数非常多,有可能会出现遇冷甚至低谷的情况,但我认为整个方向没有问题,产业是螺旋式上升。”在王仲远看来,发展具身智能已经成为行业共识,但过程离不开产业协同,每一个单点突破都难以形成化学反应。
“我们特别希望,也呼吁越来越多的机器人厂商与我们合作,提供本体的各种数据。”对于大部分创业公司而言,训练模型的成本非常高,现阶段的市场规模难以支撑他们做出这样冒风险的决定。“我们可以为他们提供大脑,类似于他们造手机,我们提供操作系统,”王仲远直言,“谁家数据用得多,我们训练出的模型就会在这家机器人上更好用。”
1
公共底座降低具身智能产业化门槛
前不久,2025智源具身智能开放日在北京举行,智元机器人、银河通用、星海图、加速进化、自变量等一众具身智能领域的明星公司,以及中国科学院大学、招商局集团等知名院校和龙头企业代表悉数到场。
智源研究院院长 王仲远
“有这么多学者和企业愿意来到这里,而且大多都是CEO和联合创始人级别的企业家,说明中国的具身智能生态正在逐步形成,大家愿意聚拢在智源研究院周围一起讨论,相互学习、相互进步,这本身就是一件很好的事情。”
“当前人工智能正处在一个新的拐点,推动机器人从1.0专用机器人时代迈向2.0通用具身智能时代,从专用机器人迈向真正能够完成多种任务的具身智能机器人时代。”基于这样的思考,智源研究院在今年6月发布了“悟界”系列大模型,推动人工智能从数字世界迈向物理世界。
如今,智源研究院已经构建起以具身大脑为核心,自底向上全栈具身智能技术体系,包括能够跨异构本体数据采集以及标准化一站式平台,具身大小脑以及VLA等具身基座模型,还有具身智能评测等,为具身技术生态提供一套可复现、可对齐的公共基础设施,降低从研究到产业化落地的门槛。
2
具身智能技术研发持续破壁
王仲远认为,能够完全自主决策、完成各种任务、与人类自由交互的完全端到端具身大模型,依然有很长的路要走,短期内比较现实的行业解决方案依然是“具身大脑”和“小脑”结合的模型。
人类通过听觉、视觉感知世界,在交互中理解世界。智源研究院发布的多模态世界模型Emu3.5同样遵循这一原理,基于海量视频数据,训练对时空状态的预测能力。”视频是能够模拟真实世界最高效的载体,也是唯一包含时间、空间、物理、因果关系以及意图等各种要素的数据。“王仲远表示,在实际训练中发现,随着多模态视频数据的增加,大模型的能力得到了显著提升,未来或将开启全新的“多模态Scaling”范式。
多模态世界模型无疑将对推进具身智能发展起到重要推进作用,但王仲远还一针见血地指出,现阶段具身大模型仍面临着“不好用、不通用、不易用”的核心痛点。“不好用”是指虽然具身智能在过去一两年取得了快速发展,但还没有到“ChatGPT时刻”。“不通用”是指很多模型依然只适用于一个本体或同品牌的本体。“不易用”则是指大脑、小脑和本体的适配难度仍然较高。
为化解这些困扰行业的痛点难题,智源研究院推出了跨异构本体的具身大小脑协作框架RoboBrain 2.0 Pro,引入RoboBrain-Dopamine和RoboBrain-SpatialTrace,分别提升机器人对动作时序价值和三维空间结构的理解与推理能力。同时,基于RoboBrain构建了通用 VLA 模型族,包括能够实现零样本跨本体迁移和长程多步骤操作的RoboBrain-X0 Pro,以及通过使用大量人类演示预训练即可适配灵巧手操作,大幅降低数据成本并在复杂操控中取得领先表现的RoboBrain-Dex 。此外,智源研究院还发布了贯通仿真训练到真机部署的泛机器人小脑智能Emu-RobotVerse,以及专为人形机器人设计的全身控制框架BAAI Thor。
智源研究院具身研究负责人还各自分享了最新研究进展。
在人机交互方面,智源研究院推出了原生全双工语音大模型RoboBrain-Audio与终身认知记忆系统RoboBrain-Memory,让机器人能够记住交互的点滴,更像一个思维敏捷、记忆力超群的老朋友。
在平台与工具链方面,智源研究院开放了“面向异构本体、规范操作流程、提高研发效率”的具身数据软件框架CoRobot,打造了面向具身智能的多芯片训练与推理一体化框架FlagOS-Robo,实现大脑模型与小脑模型的高效训练与推理,以及覆盖“数据采集-数据标注-数据管理-模型训练-仿真评测-模型部署”的全流程开发平台RoboXstudio。
在数据方面,基于具身数据软件框架CoRobot,智源研究院联合多家具身智能公司和海内外高校建设并开源了“全球本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集RoboCOIN。
在评测方面,智源研究院推出了面向具身智能的系统化评测服务平台FlagEval-EmbodiedVerse,开源“难度高、覆盖广”的具身推理能力评测基准ERQA+,并联合北京邮电大学建设面向具身智能物理安全评测基准体系,联合Dexmal 原力灵机、Hugging Face 等共十家单位,正式成立 RoboChallenge 组委会。
3
打造健康的具身智能产业生态
”数据非常重要,怎样形成数据飞轮更加重要。”王仲远指出,谈论数据时不能脱离场景和需求,要关注解决实际问题的能力。“具身机器人创业公司应该聚焦真实需求,把一个场景打磨透,做到7×24小时稳定工作,这才是产品应解决的问题。有些创业公司一开始就想要做万能具身,这让人有些担心。”
相比于企业,智源研究院没有营收“枷锁”的束缚,可以心无旁骛地专注于高泛化性的具身智能研发,打磨通用能力。因此,智源研究院与具身智能企业之间形成了天然的良性分工,“企业共享不涉及用户隐私的数据,帮助我们训练具身大模型,训练出的模型再分享给企业,让他们不必从零开始。”得益于此,智源研究院的“朋友圈”越来越大。
目前,智源研究院已经开源多款大模型。“我们特别希望通过这样善意的举动促进行业互动,并与更多企业共同训练和提升模型能力。”在一些专业论文和技术报告中,可以在致谢中看到智源研究院的名字,这一简单的举动正是王仲远乐于看到的,它代表着一个健康的产业生态正在形成。
面向短期未来,王仲远认为具备解决具体任务的专业型具身智能机器人有望在细分领域落地应用,并逐步扩大规模实现商业化,但对于具备通用能力的具身智能产品要保持客观期待。下一步,智源研究院将持续迭代并同步公布在开源项目、数据集与评测平台上的进展,同时与产业伙伴推进联合试点,加速具身智能从实验室走向生产线。
阅读更多内容,欢迎订购《机器人产业》杂志。
点击跳转!圈内人都在看的专家观点
热门跟贴