腾讯机器人 X × 混元视觉联合发布:HY-Embodied-0.5 开源,2B 模型刷新 22 项具身智能 SOTA 导语(The Hook)

当大多数视觉-语言模型还在「看懂图片」这件事上内卷时,腾讯已经让 AI 开始「动手干活」了。

HY-Embodied-0.5 是 Tencent Robotics X 与 HY Vision Team 联合发布的一套具身智能基础模型家族。它用 2B 参数的「小身板」,在 22 项具身相关基准测试中拿下了 16 项同规模 SOTA;用策略蒸馏技术,把 32B 大模型的多步推理能力压缩进边缘设备。更关键的是,它已经接入了真实的机器人控制链路——在 реальные physical 评估中展现出惊人的任务成功率。

这不只是一篇论文,而是一套可以直接跑起来的机器人「大脑」。

硬核科普(Tech Wiki) 什么是具身智能(Embodied AI)?

一句话定义:具身智能是指 AI 不仅能「看」和「理解」世界,还能通过物理实体(机器人)与世界交互和执行任务。

类比说明:就像一个普通人 vs. 一个会做饭的厨师——普通 AI 是能看懂菜谱的「观众」,具身智能 AI 是能拿起锅铲的「厨师」。

机器人场景:在机器人领域,这意味着 AI 需要理解 3D 空间关系、预测物体交互结果、规划多步骤动作序列,并最终控制机械臂/灵巧手完成精细操作(如插 USB、叠杯子、挂杯子)。

什么是 VLA(视觉-语言-动作)模型?

一句话定义:VLA 是将视觉感知、语言理解与机器人动作控制统一到一个模型中的架构范式。

类比说明:就像人类大脑处理「看到苹果 → 想说"这是个苹果" → 伸手去拿」的过程——VLA 模型把「看」「想」「做」三个环节串联起来。

机器人场景:传统的机器人控制依赖独立的感知模块、规划模块、执行模块,VLA 架构则用一个统一模型实现「端到端」控制,大幅简化系统复杂度。

什么是 MoT(混合专家 Transformer)架构?

一句话定义:MoT 是一种「分工协作」的 Transformer 变体,不同模态(视觉/语言)使用专门的计算路径,避免「一刀切」处理带来的效率损失。

类比说明:就像一个公司里,财务部和工程部使用不同的工具和方法处理各自的专业任务——MoT 让视觉 token 和文本 token 走「专属通道」,而不是都用同一套流程。

机器人场景:在机器人场景中,MoT 架构让模型在保持高视觉感知精度的同时,推理速度相当于传统 2B 密集模型,而实际激活参数更少、效率更高。

核心突破:HY-Embodied-0.5 深度拆解 痛点:为什么通用 VLM 搞不定机器人任务?

通用视觉-语言模型(VLM)虽然强大,但面对具身场景时有三座大山难以逾越:

关键瓶颈:

空间感知精度不足:通用 VLM 的视觉编码器在 2D 图像理解上很强,但缺乏 3D 空间推理能力(如判断物体远近、相对位置、朝向)。这对机器人抓取、放置等任务是致命的。

缺乏具身预训练:机器人在真实世界中需要理解物理交互(碰撞、可承受力、运动惯性),通用数据中很少覆盖这类场景。

推理与效率的两难:大模型推理能力强但太慢,小模型快但能力不足,很难在边缘设备上同时满足实时性和复杂推理的需求。

方案:HY-Embodied-0.5 是如何设计的?

架构创新:

MoT(混合专家 Transformer)架构

核心思路:视觉 token 和文本 token 使用不同的 QKV(查询-键-值)和 FFN(前馈网络)层

视觉路径强调细粒度感知,使用潜在视觉标记(Visual Latent Tokens)增强表示

推理时仅激活 22B 参数(总参数量 40B),推理速度相当于传统 20B 密集模型

双模型矩阵

MoT-2B:高效版,适合边缘部署(移动机器人、嵌入式设备)

MoT-32B:强力版,面向复杂推理任务,可与 Gemini 3.0 Pro 掰手腕

训练策略:

大规模具身预训练

使用超过 1 亿条具身和空间专用数据

语料库规模超过 2000 亿个 token

覆盖 3D 空间理解、物体交互、物理动态等领域

迭代自进化后训练 + 策略蒸馏

引入自进化后训练流水线,通过强化学习持续优化复杂推理能力

奖励函数覆盖四类任务:定位类(Grounding-Based)、回归类(Regression-Based)、轨迹类(Trajectory-Based)、语义推理类(Textual-Based)

通过策略蒸馏(On-policy Distillation)将 32B 模型的多步推理、规划能力迁移到 2B 小模型

打开网易新闻 查看精彩图片

Figure 2:HY-Embodied-0.5 MoT 架构图

图 2:MoT 架构核心设计——视觉 token 与文本 token 走不同的「专属通道」,通过潜在标记增强跨模态关联。

打开网易新闻 查看精彩图片

Figure 5:训练流水线

图 5:三阶段训练流水线——大规模预训练建立多模态基础表示 → 具身后训练增强复杂推理 → 策略蒸馏将大模型能力迁移到小模型。

效果:实验证明了什么?

关键指标(MoT-2B vs 同规模最佳模型):

打开网易新闻 查看精彩图片

点击图片可查看完整电子表格

注:所有测试均在思考模式(Thinking Mode)下进行

一句话总结:在同规模模型中,HY-Embodied MoT-2B 是当之无愧的「六边形战士」——视觉感知、空间推理、具身理解三项全能。

打开网易新闻 查看精彩图片

Figure 1:性能总览

图 1:HY-Embodied-0.5 MoT-2B 在空间/具身基准及下游机器人控制任务上的表现——刷新同规模 SOTA,并展现出优秀的下游泛化能力。

实验表现与真实机器人演示 基准测试亮点

空间推理能力

SAT(空间感知)基准:76.7 vs 竞品 45.3,提升 69.3%

Where2Place(物体放置位置判断):68.0 vs 45.0,提升 51.1%

具身理解能力

RoboBench-Planning(机器人任务规划):54.2 vs 36.2,提升 49.7%

EmbSpatial-Bench:82.8 vs 75.9

泛化到通用视觉任务: 尽管专精于具身场景,HY-Embodied-0.5 在通用视觉理解任务上也保持竞争力,说明其没有「偏科」。

真实机器人控制实验

实验平台

双臂 Xtrainer 机器人

头戴式 + 腕戴式双相机配置

每个任务 20 次真实物理评估

测试任务

精密插件包装(Precision Plug-in Packing):需要将 USB/排针精确插入目标孔位

餐具叠放(Tableware Stacking):需要精准放置碗、盘等餐具

杯子悬挂(Mug Hanging):需要将杯子挂在钩子上,涉及精细位姿控制

打开网易新闻 查看精彩图片

Figure 13:机器人实验设置与成功率

图 13:真实机器人实验平台与任务评估结果。三个任务均使用 20 次独立试验评估成功率。

推理效率对比

为什么 MoT 架构更快?

打开网易新闻 查看精彩图片

Figure 11:训练收敛与推理效率对比

图 11:(a) MoT 架构训练收敛更快;(b) 推理效率对比——MoT 在保持相近推理速度的同时,理论计算量更低。

MoT 架构训练收敛速度优于标准 Transformer

推理速度与 20B 密集模型相当

激活参数更少,边缘部署友好

打开网易新闻 查看精彩图片

Figure 10:Chain-of-Thought 推理过程

图 10:模型面对复杂具身任务时的「思考过程」——先分析空间关系,再评估物体可供性(affordance),最后规划动作序列,展现出自我反思和纠错能力。

技术溯源与关联工作 团队脉络

Tencent Robotics X 是腾讯旗下的机器人研究旗舰团队,HY Vision Team 是混元视觉团队。两者的联合发布标志着腾讯在具身智能领域的全面布局。

相关技术演进

打开网易新闻 查看精彩图片

点击图片可查看完整电子表格

技术创新点总结

HY-Embodied-0.5 的三大杀手锏:

MoT 架构:首次将混合专家机制引入具身 VLM,实现视觉/语言路径的差异化计算

自进化后训练:通过强化学习 + 多类型奖励函数,系统性提升复杂推理能力

策略蒸馏:首次在具身场景实现大模型→小模型的高效能力迁移

打开网易新闻 查看精彩图片

点击图片可查看完整电子表格

快速上手

git clone https://github.com/Tencent-Hunyuan/HY-Embodied
cd HY-Embodied/
pip install -r requirements.txt
python inference.py
结语

HY-Embodied-0.5 的发布,是腾讯在具身智能领域的一次重要亮相。MoT 架构、自进化后训练、策略蒸馏三项创新,让 2B 小模型也能拥有大模型的推理能力,并且已经在真实机器人上验证了可行性。

如果你是机器人研究者,它可能是你下一个项目的「最强外挂」;如果你是 AI 爱好者,它预示着 AI 从「看懂世界」到「动手改变世界」的又一步跨越。

项目已开源,欢迎 Star & 贡献!

关注本公众号,第一时间追踪机器人与具身智能前沿干货。

如果觉得有帮助,欢迎转发给需要的朋友!

Mbot具身智能实验室

让尖端科技触手可及,人人皆可探索未来

打开网易新闻 查看精彩图片

Mbot基础交流群等你加入,下方扫码联系

具身-杰西

Mbot具身-小助手

Mbot-视频号

Mbot-公众号