机器人前瞻(公众号:robot_pro)作者|葛文婷编辑|漠影
打开网易新闻 查看精彩图片
机器人前瞻(公众号:robot_pro)作者|葛文婷编辑|漠影

机器人前瞻4月24日报道,今天,腾讯Robotics X实验室联合混元团队发布并开源一款面向具身任务落地的多模态大模型——HY-Embodied-0.5-X

HY-Embodied-0.5-X依托HY-Embodied-0.5-MoT-2B架构研发,聚焦机器人在真实环境中的感知、决策与执行能力进行了专项优化。在覆盖规划、空间推理、具身问答、视觉指代与轨迹理解等方向的10个benchmark评测中,取得了6项第一、3项第二的成绩。

打开网易新闻 查看精彩图片

开源模型地址:
1、Github:https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-X 2、Hugging face:https://huggingface.co/tencent/HY-Embodied-0.5-X 一、训练数据覆盖多个核心场景,采用分阶段迭代训练策略

HY-Embodied-0.5-X能详细标注推理步骤,自动检查和优化数据质量。其训练数据覆盖了操作理解、第一人称任务推理、多模态交互指代理解等核心场景,由以下三部分构成:

1、团队采集机器人收集到的第一视角操作数据;

2、机械臂操作数据;

3、开源具身数据。

以下是团队的详细构建方式:

打开网易新闻 查看精彩图片

面向开放世界泛化能力,团队还进一步将具身、互联网及3D数据纳入统一体系,构建了标准化的数据重构流水线,将异构源数据转化为统一的高质量具身推理数据。

在训练上,HY-Embodied-0.5-X采用“验证—扩展—全量”分阶段迭代策略,即先通过精选小规模高质量数据快速验证训练配置和数据清洗效果,再逐步扩大训练规模,最终在确认最优数据组合和训练策略后启动全量训练。

此外,团队建立了从“生成—校验—修正”到“评测反跑验证”的完整流程,对结构化字段完整性、视觉有效性、多样性分布和模型增益效果进行端到端度量。

该模型既可以用于机器人在真实环境中的空间推理、精细操作推理、任务理解和失败反思,也可用于仿真环境中的规划评测、多模态交互研究,以及本地部署场景下的具身能力验证与开发,适用于家庭服务、桌面操作、任务规划与仿真评测等场景。

二、在真实具身任务中,展现空间、长程规划及具身交互能力

在真实的具身任务中,HY-Embodied-0.5-X主要展现出三方面特点:

1、强空间理解能力:模型能准确理解物体位置、场景布局、相对空间关系和操作状态,为动作决策和任务执行提供可靠的感知基础;

2、强长程规划能力:模型能处理多步骤、强依赖的复杂任务,在连续交互中完成稳定的任务拆解、动作规划与执行决策;

3、强具身交互能力:模型具备视觉理解与对话能力,能够进行任务解析、指代消解、动作决策、风险判断和失败反思,贴近真实机器人交互闭环。

三、在包含1011道任务的基准测试中综合得分第一,完成了仿真架构接入验证

腾讯Robotics X实验室介绍,和类似尺寸的模型相比,HY-Embodied-0.5-X在其自建的一套基于AI2Thor仿真环境的具身规划基准测试中取得了综合得分第一的成绩。

据悉,该基准共包含1011道任务,覆盖厨房、卧室、客厅、浴室四个家居场景,涉及导航、抓取、放置、开关、切割等操作。

团队称,虽然HY-Embodied-0.5-X只有20亿参数,但是在长程操作任务上,该模型超过了尺寸更大的Claude-4.0-Sonnet和GPT-5.4,仅次于其去年发布的32B的TAIROS-Planning和138B的Gemini3.0 Pro,排名第三。

打开网易新闻 查看精彩图片

此外,HY-Embodied-0.5-X还完成了一项接入验证,这项验证是在Tairos平台的PlaygroundX仿真架构上进行的。

接入验证后,HY-Embodied-0.5-X不仅能够在“把土豆扔到垃圾桶里”“把西红柿放进冰箱”等居家任务中生成完整规划,还能在执行过程中结合环境反馈进行调整。

以“把西红柿放进冰箱”任务为例,模型在初始规划中并不知道冰箱门已经关闭,但是它在在执行受阻后,可依托失败反馈快速重规划,自主补充开门、放置等关键动作,完整实现“推理决策—动作执行—感知异常—迭代重规划”的ReAct闭环。

最后,团队表示,希望通过开源HY-Embodied-0.5-X,为具身智能领域提供更贴合落地场景的基础模型,同时助力模型从通用认知能力升级至实景实操能力,加速空间理解、长程规划、交互闭环、具身推理等核心技术的迭代突破。