腾讯机器人 X × 混元视觉联合发布:HY-Embodied-0.5 开源,2B 模型刷新 22 项具身智能 SOTA 导语(The Hook)
当大多数视觉-语言模型还在「看懂图片」这件事上内卷时,腾讯已经让 AI 开始「动手干活」了。
HY-Embodied-0.5 是 Tencent Robotics X 与 HY Vision Team 联合发布的一套具身智能基础模型家族。它用 2B 参数的「小身板」,在 22 项具身相关基准测试中拿下了 16 项同规模 SOTA;用策略蒸馏技术,把 32B 大模型的多步推理能力压缩进边缘设备。更关键的是,它已经接入了真实的机器人控制链路——在 реальные physical 评估中展现出惊人的任务成功率。
这不只是一篇论文,而是一套可以直接跑起来的机器人「大脑」。
硬核科普(Tech Wiki) 什么是具身智能(Embodied AI)?
一句话定义:具身智能是指 AI 不仅能「看」和「理解」世界,还能通过物理实体(机器人)与世界交互和执行任务。
类比说明:就像一个普通人 vs. 一个会做饭的厨师——普通 AI 是能看懂菜谱的「观众」,具身智能 AI 是能拿起锅铲的「厨师」。
机器人场景:在机器人领域,这意味着 AI 需要理解 3D 空间关系、预测物体交互结果、规划多步骤动作序列,并最终控制机械臂/灵巧手完成精细操作(如插 USB、叠杯子、挂杯子)。
什么是 VLA(视觉-语言-动作)模型?
一句话定义:VLA 是将视觉感知、语言理解与机器人动作控制统一到一个模型中的架构范式。
类比说明:就像人类大脑处理「看到苹果 → 想说"这是个苹果" → 伸手去拿」的过程——VLA 模型把「看」「想」「做」三个环节串联起来。
机器人场景:传统的机器人控制依赖独立的感知模块、规划模块、执行模块,VLA 架构则用一个统一模型实现「端到端」控制,大幅简化系统复杂度。
什么是 MoT(混合专家 Transformer)架构?
一句话定义:MoT 是一种「分工协作」的 Transformer 变体,不同模态(视觉/语言)使用专门的计算路径,避免「一刀切」处理带来的效率损失。
类比说明:就像一个公司里,财务部和工程部使用不同的工具和方法处理各自的专业任务——MoT 让视觉 token 和文本 token 走「专属通道」,而不是都用同一套流程。
机器人场景:在机器人场景中,MoT 架构让模型在保持高视觉感知精度的同时,推理速度相当于传统 2B 密集模型,而实际激活参数更少、效率更高。
核心突破:HY-Embodied-0.5 深度拆解 痛点:为什么通用 VLM 搞不定机器人任务?
通用视觉-语言模型(VLM)虽然强大,但面对具身场景时有三座大山难以逾越:
关键瓶颈:
空间感知精度不足:通用 VLM 的视觉编码器在 2D 图像理解上很强,但缺乏 3D 空间推理能力(如判断物体远近、相对位置、朝向)。这对机器人抓取、放置等任务是致命的。
缺乏具身预训练:机器人在真实世界中需要理解物理交互(碰撞、可承受力、运动惯性),通用数据中很少覆盖这类场景。
推理与效率的两难:大模型推理能力强但太慢,小模型快但能力不足,很难在边缘设备上同时满足实时性和复杂推理的需求。
方案:HY-Embodied-0.5 是如何设计的?
架构创新:
MoT(混合专家 Transformer)架构
核心思路:视觉 token 和文本 token 使用不同的 QKV(查询-键-值)和 FFN(前馈网络)层
视觉路径强调细粒度感知,使用潜在视觉标记(Visual Latent Tokens)增强表示
推理时仅激活 22B 参数(总参数量 40B),推理速度相当于传统 20B 密集模型
双模型矩阵
MoT-2B:高效版,适合边缘部署(移动机器人、嵌入式设备)
MoT-32B:强力版,面向复杂推理任务,可与 Gemini 3.0 Pro 掰手腕
训练策略:
大规模具身预训练
使用超过 1 亿条具身和空间专用数据
语料库规模超过 2000 亿个 token
覆盖 3D 空间理解、物体交互、物理动态等领域
迭代自进化后训练 + 策略蒸馏
引入自进化后训练流水线,通过强化学习持续优化复杂推理能力
奖励函数覆盖四类任务:定位类(Grounding-Based)、回归类(Regression-Based)、轨迹类(Trajectory-Based)、语义推理类(Textual-Based)
通过策略蒸馏(On-policy Distillation)将 32B 模型的多步推理、规划能力迁移到 2B 小模型
Figure 2:HY-Embodied-0.5 MoT 架构图
图 2:MoT 架构核心设计——视觉 token 与文本 token 走不同的「专属通道」,通过潜在标记增强跨模态关联。
Figure 5:训练流水线
图 5:三阶段训练流水线——大规模预训练建立多模态基础表示 → 具身后训练增强复杂推理 → 策略蒸馏将大模型能力迁移到小模型。
效果:实验证明了什么?
关键指标(MoT-2B vs 同规模最佳模型):
点击图片可查看完整电子表格
注:所有测试均在思考模式(Thinking Mode)下进行
一句话总结:在同规模模型中,HY-Embodied MoT-2B 是当之无愧的「六边形战士」——视觉感知、空间推理、具身理解三项全能。
Figure 1:性能总览
图 1:HY-Embodied-0.5 MoT-2B 在空间/具身基准及下游机器人控制任务上的表现——刷新同规模 SOTA,并展现出优秀的下游泛化能力。
实验表现与真实机器人演示 基准测试亮点
空间推理能力:
SAT(空间感知)基准:76.7 vs 竞品 45.3,提升 69.3%
Where2Place(物体放置位置判断):68.0 vs 45.0,提升 51.1%
具身理解能力:
RoboBench-Planning(机器人任务规划):54.2 vs 36.2,提升 49.7%
EmbSpatial-Bench:82.8 vs 75.9
泛化到通用视觉任务: 尽管专精于具身场景,HY-Embodied-0.5 在通用视觉理解任务上也保持竞争力,说明其没有「偏科」。
真实机器人控制实验
实验平台:
双臂 Xtrainer 机器人
头戴式 + 腕戴式双相机配置
每个任务 20 次真实物理评估
测试任务:
精密插件包装(Precision Plug-in Packing):需要将 USB/排针精确插入目标孔位
餐具叠放(Tableware Stacking):需要精准放置碗、盘等餐具
杯子悬挂(Mug Hanging):需要将杯子挂在钩子上,涉及精细位姿控制
Figure 13:机器人实验设置与成功率
图 13:真实机器人实验平台与任务评估结果。三个任务均使用 20 次独立试验评估成功率。
推理效率对比
为什么 MoT 架构更快?
Figure 11:训练收敛与推理效率对比
图 11:(a) MoT 架构训练收敛更快;(b) 推理效率对比——MoT 在保持相近推理速度的同时,理论计算量更低。
MoT 架构训练收敛速度优于标准 Transformer
推理速度与 20B 密集模型相当
激活参数更少,边缘部署友好
Figure 10:Chain-of-Thought 推理过程
图 10:模型面对复杂具身任务时的「思考过程」——先分析空间关系,再评估物体可供性(affordance),最后规划动作序列,展现出自我反思和纠错能力。
技术溯源与关联工作 团队脉络
Tencent Robotics X 是腾讯旗下的机器人研究旗舰团队,HY Vision Team 是混元视觉团队。两者的联合发布标志着腾讯在具身智能领域的全面布局。
相关技术演进:
点击图片可查看完整电子表格
技术创新点总结
HY-Embodied-0.5 的三大杀手锏:
MoT 架构:首次将混合专家机制引入具身 VLM,实现视觉/语言路径的差异化计算
自进化后训练:通过强化学习 + 多类型奖励函数,系统性提升复杂推理能力
策略蒸馏:首次在具身场景实现大模型→小模型的高效能力迁移
点击图片可查看完整电子表格
快速上手:
git clone https://github.com/Tencent-Hunyuan/HY-Embodied
cd HY-Embodied/
pip install -r requirements.txt
python inference.py
结语HY-Embodied-0.5 的发布,是腾讯在具身智能领域的一次重要亮相。MoT 架构、自进化后训练、策略蒸馏三项创新,让 2B 小模型也能拥有大模型的推理能力,并且已经在真实机器人上验证了可行性。
如果你是机器人研究者,它可能是你下一个项目的「最强外挂」;如果你是 AI 爱好者,它预示着 AI 从「看懂世界」到「动手改变世界」的又一步跨越。
项目已开源,欢迎 Star & 贡献!
关注本公众号,第一时间追踪机器人与具身智能前沿干货。
如果觉得有帮助,欢迎转发给需要的朋友!
Mbot具身智能实验室
让尖端科技触手可及,人人皆可探索未来
Mbot基础交流群等你加入,下方扫码联系
具身-杰西
Mbot具身-小助手
Mbot-视频号
Mbot-公众号
热门跟贴