当机器人从标准化车间走向复杂家居、医疗场景,仅靠视觉和语言指令已难以应对动态物理环境。

1月21日,微软研究院(Microsoft Research)正式发布首款基于Phi视觉-语言模型家族的机器人专用AI系统Rho-alpha,这款被定义为“VLA+”的创新模型,通过植入触觉感知、融合仿真训练与人类反馈机制,让机器人在双手协同操作中具备了更强的适应性与可靠性,为物理AI的落地按下加速键。

打开网易新闻 查看精彩图片

在人工智能从数字空间向物理世界延伸的浪潮中,视觉-语言-行动(VLA)模型一直是核心支撑,但传统系统受限于单一感知维度,在非结构化环境中常显得“笨拙”。

英伟达CEO黄仁勋曾预判,物理AI将引爆新一轮工业革命,赋予自主机器在现实场景中“感知—推理—行动”的完整能力,而微软Rho-alpha的发布,正是这一理念的落地实践。

▍VLA+:将感知维度从视觉拓展至触觉

对人类而言,拧紧螺丝、插拔插头等动作需依赖指尖触觉微调力度与角度,但这对机器人来说曾是技术难关。Rho-alpha首次将触觉感知深度集成至模型架构,通过六维力传感器捕捉三维力与三维力矩信息,使其能实时感知接触压力、剪切力甚至微小扭转力。

微软表示,Rho-alpha的突破在于打破了VLA的能力边界,将感知维度从视觉拓展至触觉,同时构建了“感知-行动-反馈”的闭环架构,这也是其被称为“VLA+”的核心原因。

在微软公布的演示视频中,两台搭载触觉传感器的UR5e协同机械臂,在Rho-alpha驱动下执行插头插入任务:左臂精准定位接口,右臂调整姿态推进,当遇到接触阻力时,传感器迅速反馈力信号,模型随即微调角度避免卡滞。即便右臂出现定位偏差,操作人员通过3D鼠标实时干预后,系统能吸收纠正信息并优化动作轨迹。

打开网易新闻 查看精彩图片

目前Rho-alpha已实现触觉感知与视觉、语言指令的跨模态融合,微软透露,后续还将加入更精细的力感知机制,进一步提升机器人在精密装配、医疗辅助等场景的操作精度。

▍真实机器人演示、仿真任务以及视觉问答的数据训练方式

机器人领域长期受困于高质量训练数据稀缺,尤其是触觉、力觉等特殊感知模态的数据,靠人工遥操作采集不仅成本高昂,在危险、精密场景中更不切实际。为此,Rho-alpha采用了真实机器人演示、仿真任务以及大规模视觉问答数据相结合的训练方式。

打开网易新闻 查看精彩图片

华盛顿大学助理教授Abhishek Gupta表示:“虽然远程作机器人系统生成训练数据已成为标准做法,但许多场景中远程作不切实际甚至不可能实现。”“我们正与Microsoft Research合作,利用模拟和强化学习结合,丰富从实体机器人收集的预训练数据集,进行多样化的合成演示。”

“训练能够推理和行动的基础模型,需要克服多样化、真实世界数据的稀缺,”NVIDIA机器人与边缘人工智能副总裁Deepu Talla表示。“通过利用Azure上的NVIDIA Isaac Sim生成物理精确的合成数据集,Microsoft Research正在加速开发像Rho-alpha这样能够掌握复杂作任务的多功能模型。”

▍人机协同,试错中迭代进阶

即便感知能力大幅提升,机器人在真实环境中仍难免犯错。Rho-alpha的核心优势的在于“动态适应”,不仅能根据传感器信号调整动作,还能将人类干预转化为学习样本,实现部署后的持续进化。

在BusyBox物理交互基准测试中,Rho-alpha展现出强大的纠错能力。当系统接到“整理工具箱”的自然语言指令后,若因物体摆放角度刁钻导致抓取失败,操作人员通过远程设备的纠正反馈会被实时纳入模型训练,后续遇到同类场景时成功率显著提升。这种人机协同的学习模式,让机器人从“被动执行”转向“主动优化”,为其在非标准化场景的应用奠定基础。

打开网易新闻 查看精彩图片

目前Rho-alpha已在双臂机器人与类人机器人平台开展测试,微软团队正优化训练流水线与数据库,重点突破双手协同操作的性能瓶颈。微软研究院企业副总裁兼总经理Ashley Llorens透露,详细技术说明将在未来数月内发布,届时会披露更多关于跨模态融合、力觉感知的技术细节。

作为微软将云端AI能力延伸至物理世界的重要载体,Rho-alpha走了开放合作的路线。目前,微软已启动Rho-alpha研究早期访问计划,邀请机器人制造商、系统集成商及终端用户参与测试,共同探索基于自有数据的模型定制、部署与迭代方案。后续,该模型还将通过Microsoft Foundry向更广泛用户开放。

Rho-alpha的发布,体现了当前大模型研究的一个重要趋势:即从纯数字世界的认知与交互,迈向与物理世界深度融合与协作。通过整合语言理解、视觉感知、机器人行动能力,并融入触觉反馈与持续学习机制,这类研究正致力于构建能够适应开放环境、理解人类意图、并通过协同作业完成复杂任务的智能系统。

机器智能的发展方向正逐渐从执行预先设定的程式,转向在动态真实场景中学习、调整并与人类协作。随着此类技术的演进,机器人有望在更多日常与专业场景中,成为人类自然、灵活的工作伙伴。