AIPress.com.cn报道
1月22日消息,据微软官方披露,其研究团队推出了一款名为 Rho-alpha 的机器人模型,这是首个基于 Phi 系列视觉—语言模型衍生的机器人基础模型。该模型被定位为新一代“视觉—语言—动作”系统,目标是在更动态、非结构化的真实环境中提升机器人的理解与操作能力。
微软研究院表示,传统机器人系统主要依赖视觉和语言输入,而 Rho-alpha 在感知层面引入了触觉信息,并计划进一步扩展至力反馈等感知模态。在学习机制上,该模型支持在人类反馈的持续引导下不断优化,从而提高操作稳定性与可靠性。
从能力设计上看,Rho-alpha 可将自然语言指令直接转化为双臂协作的控制信号,适用于双手精细操作任务。微软将其描述为一种“增强型视觉—语言—动作模型”,强调其在感知维度与学习方式上的扩展。
在训练方法上,Rho-alpha 结合了三类数据来源:
1.来自真实机器人演示的物理轨迹数据;
2.通过仿真环境生成的合成任务数据;
3.来自网络规模的视觉问答数据。
微软指出,这种混合训练路径旨在缓解机器人领域长期存在的高质量、多模态训练数据不足问题,尤其是在触觉等非主流传感领域。
针对数据获取难度,微软研究团队与学术机构合作,利用仿真与强化学习技术生成多样化合成数据,以补充真实机器人数据的规模与多样性。相关研究人员认为,这一方法有助于突破机器人训练对人工远程操控的依赖限制。
在实际运行过程中,Rho-alpha 仍可能出现操作偏差。微软表示,系统允许人类通过三维控制设备进行实时干预和“纠偏”,并将这些修正反馈重新纳入模型学习流程,以实现持续改进。
目前,Rho-alpha 正在双机械臂平台及类人机器人上进行评估测试。微软表示,未来将公布更完整的技术细节,并希望与机器人制造商、系统集成商及行业用户合作,探索该模型在云端物理智能系统中的训练、部署与长期演化路径。(AI普瑞斯编译)
热门跟贴