腾讯机器人 X × 混元视觉联合发布：HY-Embodied-0.5 开源，2B 模型刷新 22 项具身智能 SOTA|embodied|hy|具身|推理|混元视觉|真实世界|腾讯机器人

腾讯机器人 X × 混元视觉联合发布：HY-Embodied-0.5 开源，2B 模型刷新 22 项具身智能 SOTA 导语（The Hook）

当大多数视觉-语言模型还在「看懂图片」这件事上内卷时，腾讯已经让 AI 开始「动手干活」了。

HY-Embodied-0.5 是 Tencent Robotics X 与 HY Vision Team 联合发布的一套具身智能基础模型家族。它用 2B 参数的「小身板」，在 22 项具身相关基准测试中拿下了 16 项同规模 SOTA；用策略蒸馏技术，把 32B 大模型的多步推理能力压缩进边缘设备。更关键的是，它已经接入了真实的机器人控制链路——在 реальные physical 评估中展现出惊人的任务成功率。

这不只是一篇论文，而是一套可以直接跑起来的机器人「大脑」。

硬核科普（Tech Wiki）什么是具身智能（Embodied AI）？

一句话定义：具身智能是指 AI 不仅能「看」和「理解」世界，还能通过物理实体（机器人）与世界交互和执行任务。

类比说明：就像一个普通人 vs. 一个会做饭的厨师——普通 AI 是能看懂菜谱的「观众」，具身智能 AI 是能拿起锅铲的「厨师」。

机器人场景：在机器人领域，这意味着 AI 需要理解 3D 空间关系、预测物体交互结果、规划多步骤动作序列，并最终控制机械臂/灵巧手完成精细操作（如插 USB、叠杯子、挂杯子）。

什么是 VLA（视觉-语言-动作）模型？

一句话定义：VLA 是将视觉感知、语言理解与机器人动作控制统一到一个模型中的架构范式。

类比说明：就像人类大脑处理「看到苹果 → 想说"这是个苹果" → 伸手去拿」的过程——VLA 模型把「看」「想」「做」三个环节串联起来。

机器人场景：传统的机器人控制依赖独立的感知模块、规划模块、执行模块，VLA 架构则用一个统一模型实现「端到端」控制，大幅简化系统复杂度。

什么是 MoT（混合专家 Transformer）架构？

一句话定义：MoT 是一种「分工协作」的 Transformer 变体，不同模态（视觉/语言）使用专门的计算路径，避免「一刀切」处理带来的效率损失。

类比说明：就像一个公司里，财务部和工程部使用不同的工具和方法处理各自的专业任务——MoT 让视觉 token 和文本 token 走「专属通道」，而不是都用同一套流程。

机器人场景：在机器人场景中，MoT 架构让模型在保持高视觉感知精度的同时，推理速度相当于传统 2B 密集模型，而实际激活参数更少、效率更高。

核心突破：HY-Embodied-0.5 深度拆解痛点：为什么通用 VLM 搞不定机器人任务？

通用视觉-语言模型（VLM）虽然强大，但面对具身场景时有三座大山难以逾越：

关键瓶颈：

空间感知精度不足：通用 VLM 的视觉编码器在 2D 图像理解上很强，但缺乏 3D 空间推理能力（如判断物体远近、相对位置、朝向）。这对机器人抓取、放置等任务是致命的。

缺乏具身预训练：机器人在真实世界中需要理解物理交互（碰撞、可承受力、运动惯性），通用数据中很少覆盖这类场景。

推理与效率的两难：大模型推理能力强但太慢，小模型快但能力不足，很难在边缘设备上同时满足实时性和复杂推理的需求。

方案：HY-Embodied-0.5 是如何设计的？

架构创新：

MoT（混合专家 Transformer）架构

核心思路：视觉 token 和文本 token 使用不同的 QKV（查询-键-值）和 FFN（前馈网络）层

视觉路径强调细粒度感知，使用潜在视觉标记（Visual Latent Tokens）增强表示

推理时仅激活 22B 参数（总参数量 40B），推理速度相当于传统 20B 密集模型

双模型矩阵

MoT-2B：高效版，适合边缘部署（移动机器人、嵌入式设备）

MoT-32B：强力版，面向复杂推理任务，可与 Gemini 3.0 Pro 掰手腕

训练策略：

大规模具身预训练

使用超过 1 亿条具身和空间专用数据

语料库规模超过 2000 亿个 token

覆盖 3D 空间理解、物体交互、物理动态等领域

迭代自进化后训练 + 策略蒸馏

引入自进化后训练流水线，通过强化学习持续优化复杂推理能力

奖励函数覆盖四类任务：定位类（Grounding-Based）、回归类（Regression-Based）、轨迹类（Trajectory-Based）、语义推理类（Textual-Based）

通过策略蒸馏（On-policy Distillation）将 32B 模型的多步推理、规划能力迁移到 2B 小模型

Figure 2：HY-Embodied-0.5 MoT 架构图

图 2：MoT 架构核心设计——视觉 token 与文本 token 走不同的「专属通道」，通过潜在标记增强跨模态关联。

Figure 5：训练流水线

图 5：三阶段训练流水线——大规模预训练建立多模态基础表示 → 具身后训练增强复杂推理 → 策略蒸馏将大模型能力迁移到小模型。

效果：实验证明了什么？

关键指标（MoT-2B vs 同规模最佳模型）：

点击图片可查看完整电子表格

注：所有测试均在思考模式（Thinking Mode）下进行

一句话总结：在同规模模型中，HY-Embodied MoT-2B 是当之无愧的「六边形战士」——视觉感知、空间推理、具身理解三项全能。

Figure 1：性能总览

图 1：HY-Embodied-0.5 MoT-2B 在空间/具身基准及下游机器人控制任务上的表现——刷新同规模 SOTA，并展现出优秀的下游泛化能力。

实验表现与真实机器人演示基准测试亮点

空间推理能力：

SAT（空间感知）基准：76.7 vs 竞品 45.3，提升 69.3%

Where2Place（物体放置位置判断）：68.0 vs 45.0，提升 51.1%

具身理解能力：

RoboBench-Planning（机器人任务规划）：54.2 vs 36.2，提升 49.7%

EmbSpatial-Bench：82.8 vs 75.9

泛化到通用视觉任务：尽管专精于具身场景，HY-Embodied-0.5 在通用视觉理解任务上也保持竞争力，说明其没有「偏科」。

真实机器人控制实验

实验平台：

双臂 Xtrainer 机器人

头戴式 + 腕戴式双相机配置

每个任务 20 次真实物理评估

测试任务：

精密插件包装（Precision Plug-in Packing）：需要将 USB/排针精确插入目标孔位

餐具叠放（Tableware Stacking）：需要精准放置碗、盘等餐具

杯子悬挂（Mug Hanging）：需要将杯子挂在钩子上，涉及精细位姿控制

Figure 13：机器人实验设置与成功率

图 13：真实机器人实验平台与任务评估结果。三个任务均使用 20 次独立试验评估成功率。

推理效率对比

为什么 MoT 架构更快？

Figure 11：训练收敛与推理效率对比

图 11：(a) MoT 架构训练收敛更快；(b) 推理效率对比——MoT 在保持相近推理速度的同时，理论计算量更低。

MoT 架构训练收敛速度优于标准 Transformer

推理速度与 20B 密集模型相当

激活参数更少，边缘部署友好

Figure 10：Chain-of-Thought 推理过程

图 10：模型面对复杂具身任务时的「思考过程」——先分析空间关系，再评估物体可供性（affordance），最后规划动作序列，展现出自我反思和纠错能力。

技术溯源与关联工作团队脉络

Tencent Robotics X 是腾讯旗下的机器人研究旗舰团队，HY Vision Team 是混元视觉团队。两者的联合发布标志着腾讯在具身智能领域的全面布局。

相关技术演进：

点击图片可查看完整电子表格

技术创新点总结

HY-Embodied-0.5 的三大杀手锏：

MoT 架构：首次将混合专家机制引入具身 VLM，实现视觉/语言路径的差异化计算

自进化后训练：通过强化学习 + 多类型奖励函数，系统性提升复杂推理能力

策略蒸馏：首次在具身场景实现大模型→小模型的高效能力迁移

点击图片可查看完整电子表格

快速上手：

git clone https://github.com/Tencent-Hunyuan/HY-Embodied
cd HY-Embodied/
pip install -r requirements.txt
python inference.py

结语

HY-Embodied-0.5 的发布，是腾讯在具身智能领域的一次重要亮相。MoT 架构、自进化后训练、策略蒸馏三项创新，让 2B 小模型也能拥有大模型的推理能力，并且已经在真实机器人上验证了可行性。

如果你是机器人研究者，它可能是你下一个项目的「最强外挂」；如果你是 AI 爱好者，它预示着 AI 从「看懂世界」到「动手改变世界」的又一步跨越。

项目已开源，欢迎 Star & 贡献！

关注本公众号，第一时间追踪机器人与具身智能前沿干货。

如果觉得有帮助，欢迎转发给需要的朋友！

Mbot具身智能实验室

让尖端科技触手可及，人人皆可探索未来

Mbot基础交流群等你加入，下方扫码联系

具身-杰西

Mbot具身-小助手

Mbot-视频号

Mbot-公众号

腾讯机器人 X × 混元视觉联合发布：HY-Embodied-0.5 开源，2B 模型刷新 22 项具身智能 SOTA

热搜

热门跟贴

热搜

热门跟贴

相关推荐

美民主党对防长赫格塞思发起弹劾

两名外籍乘客在网约车上对着部队大门连续拍照，接下来又要去训练场方向，司机觉得可疑，直接开车把他们交给了部队

具身智能为什么还没真正落地？问题卡在这｜沙龙报名

大批五一航班突然取消！广东市民出行受到这些影响

高峰稳扎稳打推理，栾云平顺嘴改设定，剧情失控加速！

河南万岁山武侠城演出中“大象”露出人脚，景区：没饲养过大象，是4名工作人员扮的

广东“莫氏鸡煲大公主”爆火前后反差大，晚上干到凌晨2点才收工，发文吐槽：这个鸡你们是非吃不可吗

揭秘年销10亿的爆款宋柚汁：“宋柚”是商标，柚含量不到3%，主配料为糖水，品牌号称全国销量第一

确认了！两人系间谍

阳台遭飞鸟"精准投粪" 住户:每天来十多次 或为挑衅猫

格力怒斥海信，称其没资格用“真铜实料”四字进行宣传，海信高管回怼：又当又立

Claude变蠢了，新模型发布前的黑暗时刻？

奇瑞国内开售人形机器人 车企打响具身智能竞赛

打破数据瓶颈，聆动通用以「大小脑」驱动具身智能产业落地

江苏又一省级具身智能中心落地无锡 构建具身生态雨林锚定20万元级工业场景

破解创新药可及性难题，复星凯瑞率先启动真实世界药物经济学探索项目

世界模型元年启示录：动机、乱战与暗礁

中国具身智能融资新纪录诞生！它石智航Pre-A轮融资4.55亿美金

切记，半夜醒来千万不要看时间！

AI 记忆首次超越人类：幻觉率压至 0.5%，长对话不再瞎编

阳台遭飞鸟"精准投粪" 住户:每天来十多次或为挑衅猫

奇瑞国内开售人形机器人车企打响具身智能竞赛

江苏又一省级具身智能中心落地无锡构建具身生态雨林锚定20万元级工业场景