家用电器是家庭服务机器人最难啃的一类任务对象。与桌面物体操作相比,家电操作不仅涉及按钮、旋钮、门体等多种异构部件,还受到模式切换、状态约束和程序逻辑的共同支配。真正完成一次家电任务,机器人往往既要「看得见」,也要「读得懂」,还要「按说明书做对」。
因此,基于说明书的家电操作规划,正在成为具身智能走向真实家庭场景必须补上的关键能力。
但恰恰是这类能力,最难在真实环境中被系统评测。微波炉、烤箱、搅拌机等设备一旦发生误操作,轻则损坏设备,重则带来现实安全风险;与此同时,真实家电价格高、品类多、维护复杂,也很难支撑大规模、标准化和可重复的实验。
更关键的是,说明书驱动的操作规划评测,不只要求模型读懂文档,还要求测试对象在外形、部件功能和程序逻辑上尽可能贴近真实设备,而这正是现有仿真资源最缺失的一环。
针对这一瓶颈,高玉正、龙宇星在北京大学长聘副教授和上纬启元首席科学家董豪指导下,提出了RealAppliance 数据集与 RealAppliance-Bench 评测基准。此前,董豪团队已在 CVPR 2025 Highlight 工作 CheckManual 中首次提出基于说明书的家电操作研究方向;而在本工作中,团队进一步把评测对象从「手册理解」推进到「说明书、设备外形、交互功能与程序状态」共同构成的完整操作系统。
RealAppliance 收录 100 个精细建模的家电资产,覆盖 14 类常见电器,并在真实说明书、外观结构、交互机制和程序逻辑四个层面与真实产品系统对齐;基于此构建的 RealAppliance-Bench 则围绕手册检索、开环规划、部件定位、闭环调整和全过程推理五个任务,系统评估模型在基于说明书的家电操作规划中的关键能力。
实验表明,即便是当前主流多模态大模型和具身规划模型,在这一更接近真实世界的评测设定下仍面临显著挑战。
- 论文地址:https://arxiv.org/abs/2512.00287
- 项目主页:https://realappliance.github.io/
- 数据集地址:https://github.com/gaoyz1235/RealAppliance
Figure 1: RealAppliance 数据集概览。该数据集包含 100 个高保真家电资产,覆盖 14 个类别,并为每个资产配套真实说明书。
RealAppliance 数据集覆盖 14 类常见家用电器,手册语言涵盖中文、俄语、法语、德语等多种语言。每个资产均配套真实说明书,并在外观尺寸、关键部件功能和程序状态转移上与真实家电保持一致,从而为基于说明书的操作规划评测提供可重复、可扩展的仿真实验对象。
与仅提供可动结构的传统资产集合不同,RealAppliance 更强调「说明书 - 资产 - 程序逻辑」的系统对应关系。正因如此,它不仅能够复现设备外形,还能够支持对操作顺序、状态约束和反馈修正过程的评测,这也是基于说明书的家电操作研究走向标准化评估的关键基础。
Figure 2: RealAppliance 与现有数据集的对比:传统数据集普遍缺乏手册对齐与程序逻辑,而 RealAppliance 实现了说明书、资产与交互逻辑的系统对齐。
RealAppliance 资产构建与方法框架
如图 3 所示,RealAppliance 的构建遵循「数据采集、资产建模、机制配置、程序设计」四个阶段,目标是在外观、结构、交互和状态逻辑四个层面同时逼近真实电器。
Figure 3: RealAppliance 资产构建流程:收集手册与照片、完成高保真建模、配置交互机制,并依据说明书设计程序逻辑。
1.收集说明书与真实照片
研究团队从多个国家和地区系统收集家用电器及其对应的用户手册和实物照片。为保证资产既适用于仿真建模,也适用于机器人操作研究,样本筛选遵循四项标准:
- 可操作性:按钮、旋钮等部件尺寸适合机械臂操作;
- 篇幅适中:手册长度符合当前多模态大模型的上下文处理能力;
- 描述清晰:部件名称和操作步骤有明确说明;
- 信息完整:包含准确的尺寸数据和高分辨率产品照片。
上述标准确保了资产来源真实、信息充分、结构清晰,也为后续部件命名、机制设计和任务标注提供了统一依据。
2.电器数字资产建模
电器数字资产建模的难点,不仅在于复刻真实外观,更在于如何在保持真实感的同时,将关键操作部件拆解为可计算、可交互、可控制的结构单元。
电器建模:基于手册、照片和实测尺寸,研究团队在 Autodesk 3ds Max 中对每个电器进行精细建模。所有功能部件均作为独立组件处理,并通过 TurboSmooth 增加多边形密度以提升视觉质量。随后,团队使用 Unfold3D 展开 UV 贴图,并在 Adobe Photoshop 中基于 UV 布局绘制彩色纹理,以较高精度还原表面颜色、图标、Logo 等关键细节。
资产设置:研究团队将组装完成的模型与纹理导入 NVIDIA Isaac Sim,生成 USD 格式数字资产。所有资产统一采用右手坐标系,并以几何中心为原点;部件命名严格遵循说明书术语,以便后续检索、标注与任务定义;同时通过材质参数调节,准确呈现玻璃、塑料、金属等不同表面效果。
关节设计:在 Isaac Sim 中,团队为不同部件配置与其交互方式相对应的关节参数。旋转关节用于旋钮、铰链门和翻盖等转动部件;棱柱关节用于机械按钮、滑块和推拉门等线性运动部件;固定关节则分配给触摸按钮、屏幕等不可动界面。
3.配置电器机制
为使仿真资产具备与真实电器一致的交互响应,该工作构建了一套模块化机制体系。
各项机制均被封装为独立类并遵循统一接口规范,可根据不同电器的工作方式进行灵活组合。
物理机制(5 种):
- 内部弹簧:模拟压缩或拉伸弹簧的力,使部件自动复位或辅助运动(如烤面包机杠杆);
- 磁吸:利用磁力实现部件间的吸附或紧密闭合(如洗衣机门);
- 机械触发:通过因果逻辑实现部件间的联动(如微波炉开门按钮弹出门);
- 旋钮倒计驱动:通过旋钮机械旋转实现倒计时功能(如空气炸锅定时旋钮);
- 安全锁:锁定状态下阻止物理操作(如搅拌机机头锁)。
电子机制(5 种):
- 屏幕显示:实时更新屏幕区域纹理,显示当前状态(如烤箱温度显示);
- 触摸感应:绑定虚拟接触传感器,检测触摸操作并触发相应动作;
- 照明:根据状态变化控制内部照明(如微波炉工作灯);
- 指示灯:同步更新面板指示灯,传达工作状态(如洗衣机完成提示);
- 旋转马达:驱动部件关节模拟电机运转(如微波炉转盘)。
这一机制体系使电器资产不再只是「可见」的三维模型,而成为具备可操作反馈与状态变化能力的仿真实体。
4.设计电器程序逻辑
基于上述机制,研究团队进一步为每个电器编写了与真实说明书一致的程序脚本。脚本首先定义电源、温度、时间、模式等核心状态变量及其取值范围,再为各功能部件绑定相应机制,最后依据说明书中的操作顺序、条件约束和状态转移关系设计整体程序逻辑。由此,资产在参数变化后能够触发屏幕显示、电机启停、照明变化等联动效果,从而较完整地复现真实电器的工作流程。
RealAppliance-Bench 评测基准
如图 4 所示,RealAppliance-Bench 围绕机器人完成一次完整电器操作所需的核心链路,设计了五个递进任务。
这些任务覆盖从文档理解到执行纠错的关键环节,用于系统评估模型在电器操作规划各阶段的能力:
Figure 4: RealAppliance-Bench 的五个任务:手册检索、开环规划、部件定位、闭环调整与全过程推理。
- Task 1:手册页面检索
电器手册通常包含部件说明、操作步骤、安全须知等多类信息,其中部件说明与操作步骤对任务规划尤为关键。
本任务要求模型根据给定手册及目标页面类别(如「操作步骤」),从完整文档中准确检索出相关页面,以验证其文档理解与信息筛选能力。
- Task 2:开环操作规划
给定任务指令(如「制作爆米花」)、电器手册和初始观测图像后,模型需要规划出一系列原子动作序列。该基准基于真实电器操作需求定义了 9 种电器操作动作(如按下、旋转、打开等)和 4 种物体操作动作(如拾取、放置等),要求模型从候选动作中选择正确类型并补全相应参数。
- Task 3:电器部件定位
在开环规划阶段,模型可能只输出目标部件名称,但真实机器人执行仍需要该部件的精确空间位置。
因此,本任务要求模型结合手册内容与目标部件名称,在当前观测图像中预测对应边界框,以评估其跨模态部件对齐能力。
- Task 4:闭环规划调整
真实执行过程中往往会出现门体被意外打开、旋钮被外部扰动等情况,模型需要依据实时视觉反馈及时修正后续动作。该基准预设了固定的扰动类型和位置,要求模型在给定历史执行记录、初始计划和实时观测后,预测下一个正确的原子动作。
- Task 5:全过程推理
在全过程推理任务中,模型需依次完成手册检索、开环规划、部件定位,并在执行过程中应对外部干扰。
任一步骤失败(如部件定位 IoU < 0.5 或动作预测错误)都将导致整体任务判定失败,因此该任务能够直接反映模型的端到端鲁棒性。
Figure 5: RealAppliance-Bench 的统计信息
模型性能评估
基于 RealAppliance-Bench,该工作对多类主流模型进行了系统评测,包括专有多模态模型(GPT-5/GPT-5 Mini、Gemini 2.5 Pro/Flash)、开源多模态模型(Qwen3-VL 系列、GLM 系列)以及具身规划模型(Robobrain 2.0、ManualPlan、ApBot)。
结果显示,尽管不同模型在局部任务上各有优势,但面对真实说明书驱动、且与真实家电程序逻辑对齐的操作规划链路时,整体表现仍与可靠应用水平存在明显距离。
Figure 6: 模型在 RealAppliance-Bench 上的表现概览
手册页面检索:专有模型整体表现最优,开源模型次之,具身规划模型相对较弱。
这说明具身模型在当前训练范式下尚未形成稳定的文档理解能力,相关能力甚至可能在任务特化过程中被削弱。
开环任务规划:所有模型均未表现出令人满意的稳定性,常见错误包括动作类型误用、目标部件选择错误和关键步骤缺失。
这表明模型尚未真正掌握说明书驱动的操作逻辑,尤其缺乏对条件依赖与步骤顺序的深层理解。
部件定位:模型预测的边界框 IoU 普遍偏低,多数结果仅在 0 到 0.05 之间。
其根本难点在于,模型需要将手册中的示意图或符号化部件描述,与真实观测图像中的跨视角视觉线索进行对齐,这对空间理解与视觉指向能力都提出了更高要求。
闭环调整:模型普遍难以根据状态变化及时修正计划。
其中,参数预测错误(如旋转角度不准确)是仅次于动作类型错误的第二大失败来源,这说明模型既欠缺对细粒度视觉变化的稳定感知,也缺乏将感知结果转化为后续决策的能力。
全过程推理:几乎所有模型的端到端成功率均为 0。误差在多任务链路上的级联放大,凸显出当前系统在真实电器操作场景中仍然缺乏足够的鲁棒性与闭环执行能力。
详细评测数据请参见论文表 2。
总结与展望
总体来看,RealAppliance 首次在家用电器场景中实现了「真实说明书、高保真资产与操作逻辑」的系统对齐,并将基于说明书的家电操作规划评测推进到更接近真实世界的设定中。
基于该数据集构建的 RealAppliance-Bench,为研究者提供了一条从文档理解、动作规划到闭环修正的完整测试链路,也更清晰地揭示了当前模型在关键环节上的能力边界。
展望未来,RealAppliance 不仅可继续作为说明书驱动家电操作评测的标准化平台,也有潜力支持低层家电操作策略与高层家电操作模型的后续研究。随着这类高保真资产与评测体系不断完善,家庭服务机器人在复杂家电场景中的可靠部署将获得更加坚实的基础。
热门跟贴