来源:市场资讯

(来源:智通财经)

智通财经APP获悉,兴业证券发布研报称,具身大模型作为人形机器人的“大脑”,从“感知-认知-控制”层面赋能机器人,强调与物理世界的交互,需具备多模态感知、自主决策、实时交互执行、通用与泛化等能力。目前主流厂家数据采集及训练方案多样。机器人通过传感器获取外界和自身状态,为具身大模型决策提供数据支持,建议关注人形机器人传感器以及掌握动捕解决方案的相关公司。

兴业证券主要观点如下:

具身大模型是人形机器人的“大脑”,主导“感知-认知-控制”交互闭环

传统大模型专注于单一或少数模态的任务处理,缺乏与物理世界直接交互的能力。具身大模型作为人形机器人的“大脑”,从“感知-认知-控制”层面赋能机器人,强调与物理世界的交互,需具备多模态感知、自主决策、实时交互执行、通用与泛化等能力。

人形机器人目前尚未实现大规模应用,主要原因或非硬件能力不足,而是大模型存在瓶颈。从产业进程来看,当前机器人肢体层技术已较为成熟,而大模型的发展远落后于硬件。当前阶段的具身大模型已具备认知、推理与规划能力,不足之处在于难以可靠处理复杂物理世界的不确定性,同时泛化能力明显较弱。

具身大模型主流框架为分层式与端到端式,路径尚未收敛。传统决策采用分层架构,包括感知与互动、高层规划、低层执行以及反馈与增强,通过大小脑分层,人形机器人更容易落地,但分层范式存在错误累积的问题,且在跨多样任务泛化时表现不佳。端到端框架基于感知环境和机器人状态直接输出具体的机器人执行命令,将感知、语言理解、规划、动作执行和反馈优化集成到一个统一的框架中,具备高集成度与较强泛化能力,VLA模型是端到端决策的核心。

海外具身大模型

1)典型的完全端到端架构具身大模型包括谷歌DeepMind RT-2与特斯拉FSD。RT-2致力于通过端到端的神经网络将视觉和语言信息直接映射为机器人动作;特斯拉Optimus可沿用汽车FSD系统的技术栈,实现多模态输入与实时动作输出。2)典型的分层具身大模型包括Figure AIHelix、英伟达GR00TN1与PhysicalIntelligence π0。Helix采用“系统S1(快思考)+系统S2(慢思考)”双系统架构;GR00TN1同样采用双系统架构,并利用流匹配技术来生成动作;π0采用“预训练VLM+动作专家模块”的VLA模型。

国内具身大模型

架构持续创新,能力对标海外,典型模型包括智元机器人G0-1、星动纪元ERA-42、银河通用GraspVLA、灵初智能Psi R1及字节Seed GR-3。G0-1开创性提出ViLLA架构,采用“VLM+MoE(混合专家)”;ERA-42模型是国内首个真正意义上的端到端原生机器人大模型;GraspVLA模型将VLM与动作专家集成,是全球首个合成大数据驱动的基础抓取大模型;Psi R1模型采用快慢脑架构;GR-3采用40亿参数的混合变换器架构,泛化抓取-放置能力超越π0。

数据是驱动具身大模型迭代升级的关键,目前主流数据训练方案为真机、仿真与视频数据相结合

伴随具身智能转向端到端大模型,数据需求从低量单一模态数据逐步升级为海量、多模态、高精度和跨任务长程数据,其中真机数据价值最高,获取难度最大,是具身智能落地的可靠数据源。目前真实数据采集方式主要分为VR遥操作采集、机械臂主从控制采集、数据手套遥操作等。目前主流厂家数据采集及训练方案多样,特斯拉数采方案或转向视频学习,而银河通用以物理仿真数据为主、真实数据为辅。

投资建议

1)机器人通过传感器获取外界和自身状态,为具身大模型决策提供数据支持,建议关注人形机器人传感器相关公司,如安培龙、汉威科技、福莱新材、奥比中光;2)动捕采集方案是高质量运动数据的关键来源,建议关注掌握动捕解决方案的相关公司,如凌云光。

风险提示:人形机器人量产进度不及预期;大模型技术进展不及预期;训练数据规模与质量不及预期。