Meta AI用Spot干了啥？|ai|meta|spot|宇宙|机器人|视觉

2年前，社交软件Facebook老板扎克伯格鉴信元宇宙是下一个科技前沿，押注元宇宙搞的轰轰烈烈。

先是宣布成立元宇宙产品团队，后来又豪掷5000万美元与相关机构合作，力促建立元宇宙，后来为表决心，小扎后来更是直接把Facebook改名为Meta，甚至股票代码也更名为MVRS。

当然，群众对此的反响也很直接，公司改名后小扎身家直接腰斩。

小扎有没有深夜躲在被子里后悔哭泣小编不知道，但是小扎追逐科技前沿的决心绝对没有改变。

去年11月30日OpenAI推出ChatGPT爆火后，小扎公司Meta立刻跟进，2月下旬就立刻发布了新的开源AI语言生成大模型LLaMA。对于大语言模型的深度研究，Meta也一直在持续跟进。

据悉，Meta AI和Fundamental AI Research（FAIR）的研究人员一直在与波士顿动力公司的Spot四足机器人合作，尝试将机器人推向新的高度。他们的研究在创建通用的具体人工智能代理方面取得了两项重大突破。

▍突破一：自适应技能协调平台ASC

Meta和FAIR研究团队开发了自适应技能协调平台ASC。据了解，ASC是一种通过协调和调整学习的视觉运动技能来完成机器人移动操作任务的方法。借助ASC，Spot定位和检索陌生物体的尝试成功率提升至98%，而传统方法的成功率仅为73%。

Asc由三个部分组成：基本视觉运动技能库、技能协调策略和纠正策略。

第一步是训练三种基本视觉运动技能：导航、拾取和放置。导航技能学习控制线速度和角速度，并找到到达指定目标坐标和航向的路径。它使用两个以自我为中心的前置深度摄像头以及一个自我运动传感器。拾取技能则在不使用地图的前提下，学会命令所需的手臂关节位移来拾取目标物体。它从夹具相机获取深度图像、边界框图像及其当前的手臂关节角度。最后，放置技能学习命令所需的手臂关节位移，以将其夹具中的物体放置到指定的目标放置位置。

基本技能训练完成后，以手臂关节角度和放置目标坐标为输入，Asc学习协调和纠正策略。协调策略使用观察获得的环境信息来激活每个步骤要使用的技能。纠正策略还使用观察获得的环境信息，并在感知到分布状态外时调整训练有素的技能。经过训练后，协调策略会在每个时间步骤自主地激活导航、拾取或放置技能。

同时，团队在多个应用场景对经过训练的纠正策略进行了真实测试，展示了导航对未知环境和非结构化场景的适应状态。我们以零射击方式在两个看不见的现实世界环境（公寓和实验室）中部署ASC。尽管在训练期间从未见过这些场景并且无法访问预先构建的地图，ASC仍然不断地重新排列分布在每个环境各个部分的对象。

在对ASC进行测试挑战时间，团队重新整理了两个环境中的60个对象。ASC仍然成功重新排列，且每个对象的成功率高达98%。相比之下，由于序列模型容易受到切换错误等问题的影响，成功率则要低得多。

在发现目标物体后，ASC还可以比序列模型训练更智能地在技能之间进行转换，甚至在达到导航目标之前，ASC就学会了从导航技能切换到拣选，通过协调和适应一套习得的视觉运动技能，ASC可以完成复杂任务.仅使用机载视觉和本体感受传感器便在两个陌生的环境中实现了近乎完美的现实世界对象重新排列也证明了ASC能够很好地处理错误和意外干扰，具有鲁棒性，能成为复杂和长期任务的理想框架。

▍突破二：VC-1的人工视觉皮层模型

在研究过程中，Meta和FAIR研究团队尝试让Spot实现高级推理和规划，能够处理不熟悉的环境并理解简单的自然语言指令。

该团队使用模拟数据训练了三台Spot机器人。训练内容包括：让机器人了解在家庭、公寓和办公室等各种环境中检索日常物品的样子。让机器人在新空间中导航并克服未知环境，测试其检索现实世界中物体的能力。

通过这些方法，该团队开发出一种名为VC-1的人工视觉皮层模型，VC-1在虚拟环境中的17种不同感觉运动任务中匹配或优于最著名的结果。

FAIR团队的研究人员AksharaRai表示：“在执行任务时，VC-1的人工视觉皮层模型鲁棒性更高，且允许机器人处理显示世界中发生的干扰，当物体不在原定地点时，机器人可以根据环境和机器人拥有的信息重新规划。相较传统方式，VC-1的人工视觉皮层模型完成任务的成功率更高。”

▍结语

对于Meta和FAIR研究团队的AI+四足机器人研究实验，波士顿动力公司Spot总经理ZackJackowski表示：“Meta使用Spot的方式正是我们设计它时希望人们使用该机器人的方式，现在，Spot可以在工业设施中行走可重复的路径并跟踪设备性能，这很有价值。”