面向具身智能创新,上海再次做出重要贡献。记者最新获悉,全球首个、也是目前规模最大、模态最完整、任务结构最系统化的“视触觉”多模态机器人操作数据集——白虎-VTouch已在上海正式发布,标志着具身智能机器人正在突破“看得见、摸不着”的感知瓶颈,真正向“能触、能控”的精细化操作阶段跨越。
让机器人与现实世界交互形成海量的语料数据,再通过预训练让这些数据转化为具身基础模型,激发出处理复杂问题的“涌现”能力——这已成为当今提升具身机器人“智力”的核心手段。然而长期以来,具身智能的语料数据来源,大多局限于视觉传感器,使得机器人过度依靠“看”来理解世界,缺失了至关重要的触觉维度。这种感知上的不平衡,使得机器人一旦需要在暗光环境下摸索开关、抓取易碎物品等复杂场景,往往会因为缺乏高保真的触觉信息而显得“笨手笨脚”。
此次发布的白虎-VTouch数据集,由国家地方共建人形机器人创新中心(下称“国地中心”)联合上海纬钛科技有限公司共同发布,核心目的就是要补齐具身智能缺失的“触觉与接触”数据拼图,为构建真正具备物理理解与精细操控能力的具身基础模型提供关键语料与工程底座,进而加速具身机器人的进化迭代。
据介绍,该数据集不仅拥有包含深度信息的彩色图像(RGB-D)数据、关节位姿数据,更借助纬钛科技自研的视触觉传感器,记录软接触、硬接触、滑动接触等多种物理交互模式下的压力和形变数据。目前,该数据集总量已超过6万分钟,包含视触觉图像约9072万对真实物体接触样本。此外,与传统单一任务的训练不同,白虎-VTouch的数据采集还首创了矩阵式方法,不仅极大提升了海量数据的采集效率,更显著增强了机器人的实际应用能力。
目前,该数据集已覆盖家居家政、工业制造、餐饮服务、特种作业等四大类真实场景。通过轮式、双足等多种机器人构型包括手持终端,研究团队完成了超过380个任务类型,涉及500多种真实物品,涵盖抓取、插入、旋转、放置等100多种原子技能,基本覆盖了约90%的日常生活和工业操作需求,展现出了极强的跨平台泛化能力。
为推动具身智能生态的开放与发展,目前,白虎-VTouch的首批6000分钟数据已正式上线开源社区OpenLoong,这不仅丰富了我国具身智能的技术生态和标准化探索,也意味着全球的具身开发者都可以利用上海这一原创成果,构建更聪明、更灵巧的机器人基础模型。随着相关数据的持续完善,未来的机器人将不仅仅是一个“移动摄像头”,而成为拥有灵敏触觉、能像人类一样处理复杂任务的智能助手。
原标题:《机器人不会摸黑开灯?上海首发全球最大“视触觉”数据集,发力“指尖进化”》
栏目主编:任荃
来源:作者:文汇报 张懿
热门跟贴