与 OpenAI 官宣「分手」后,人形机器人公司 Figure 在 X 平台放出狂言,宣称其内部 AI 模型取得重大突破,将在接下来的 30 天内展示前所未见的创新成果。

这一天的到来没有让我们等太久,Figure 深夜正式发布通用具身智能模型 Helix。

Figure 创始人 Brett Adcock 在 X 平台发文称, Helix 团队的目标是攻克通用机器人技术——让每个家庭都能拥有一台机器人,虽然还有很长的路要走,但目前的成果已经初见成效。

打开网易新闻 查看精彩图片

「介绍 Helix,我们最新的 AI,它的思维方式更接近人类。要让机器人真正走进家庭,我们需要能力上的巨大飞跃。Helix 能够适应并操作任何家居物品。」

具体来说,Helix 是一种通用的视觉-语言-行动(VLA)模型,它融合了感知、语言理解和学习控制能力,旨在解决机器人技术中长期存在的多个难题。

按照 Figure 的说法,Helix 在多个方面实现了行业首创:

Helix 是 首个能够对整个人形机器人上半身进行高速连续控制的 VLA,包括手腕、躯干、头部以及单个手指。

Helix 是首个能够同时运行在两台机器人上的 VLA,使它们能够协作完成一个共享的长时任务,即便面对的是从未见过的物品。

配备 Helix 的 Figure 机器人现在几乎可以拾取任何小型家用物品,包括成千上万种它们以前从未接触过的物品, 只需遵循自然语言指令即可完成操作。

与以往的方法不同,Helix 仅使用一组神经网络权重来学习所有行为——从拾取和放置物品,到使用抽屉和冰箱,再到跨机器人交互—— 无需针对特定任务进行额外微调。

Helix 是首个完全运行在嵌入式低功耗 GPU 上的 VLA,意味着它已具备直接商业化部署的能力。

 刚甩掉 OpenAI 转身就爆火,Figure 机器人收拾家务视频刷屏全网,默契配合看傻网友
打开网易新闻 查看更多视频
刚甩掉 OpenAI 转身就爆火,Figure 机器人收拾家务视频刷屏全网,默契配合看傻网友

比技术报告更直击人心当属 Figure 官方发布的演示视频。

还是熟悉的家庭场景,画面中的男人三言两语就给两个 Figure 02 机器人交代了任务—— 运用 Helix AI 模型,推理眼前这些第一次看到的物品所属的位置,然后协作收拾好。

这对机器人搭档收拾家务主打一个行云流水,当机器人递过来一个苹果,另一个机器人秒 Get 同伴的心思,主动递过去一个黑色大碗,搭配暗黑色调,赛博朋克风格拉满。

打开网易新闻 查看精彩图片

分类冷藏,这对机器人搭档分工明确,配合默契,整理完还不忘关上冰箱门,比一些真人室友还要靠谱。

打开网易新闻 查看精彩图片

一个递,一个放,手脚相当麻利。

打开网易新闻 查看精彩图片

脑子也很灵活,让其捡起眼前「沙漠物品」,它二话不说就能在众多物品中准确拣出仙人掌玩偶。

打开网易新闻 查看精彩图片

一些 X 网友甚至将这一成果比作「人形机器人领域的 iPhone 时刻」。

打开网易新闻 查看精彩图片

虽然这种评价有些夸大其词,但 Helix 确实解决了家用机器人领域长期以来的一个核心难题,在理想的家庭场景中,你可以简单地告诉机器人做某事,它就会去做。

但与标准化的工业环境不同,家庭场景复杂多变,衣物可能皱皱巴巴地散落在各处,餐具可能有着不同的形状和材质,甚至每天都会出现全新的物品,这对家庭机器人的适应能力提出了极高的要求。

打开网易新闻 查看精彩图片

传统的解决方案往往需要投入大量资源。一种是请博士级专家花费大量时间为每个具体任务编写专门的程序;另一种是通过数千次反复示范来训练机器人学习特定动作。

显而易见,这些方法不仅耗时费力,而且成本高昂,难以在家用机器人领域大规模普及。基于此,Figure 团队提出了一个新的解题思路。

打开网易新闻 查看精彩图片

既然 AI 在图像识别、语言理解等领域已经展现出强大的学习能力和即时泛化能力,那为什么不利用视觉语言模型(VLM)中积累的丰富语义知识来指导机器人行为,特别是这些模型通过对互联网大规模数据的学习,已经积累了大量关于物体、场景和行为的常识性知识。

点子有了,但路还没有走通。

如何从 VLM 中提取这些常识性知识,并将其转化为可泛化的机器人控制?而这正是打造 Helix 的核心目标—— 让机器人能真正理解和执行各种复杂任务,使其具备更强的适应能力。

与传统机器人系统相比,Helix 最大的优势在于无需繁琐的任务演示或复杂的编程,就能自主完成从简单的物品抓取到复杂的协作任务等多样化操作。

作为评价机器人智能水平的关键指标,机器人能否自主处理未见过的场景和物品,将决定其实用价值。

凭借强大的泛化能力,Figure 机器人能够通过自然语言指令,识别和操作数千种不同形状、大小、颜色和材质的家居用品,即使是从未见过的物品也能准确处理。

打开网易新闻 查看精彩图片

技术层面上,Helix 的运作依赖于两个紧密配合的系统。一个是负责高层语义理解的 System 2(S2,7B 参数),另一个是负责实时控制的 System 1(S1,80M 参数)。

用更通俗的话来说,S2 负责「思考」,S1 负责「行动」。 其中,S2 系统以 7-9Hz 的频率运行,持续处理机器人摄像头拍摄的画面和接收到的语言指令,将其转化为机器人可以理解的行为指令。

而 S1 系统则以 200Hz 高频率运行,基于 S2 的指令和实时环境数据,精确控制机器人的每个动作。

为了支持这种高效运算,每台配备 Helix 的 Figure 机器人都装有双低功耗嵌入式 GPU,通过高效的并行计算实现流畅的控制效果。

打开网易新闻 查看精彩图片

在实际应用场景中,Figure 02 不仅能精确控制每一个手指的动作、手臂的运动轨迹、头部的转向和身体姿态,更重要的是实现了实时整体协调效果。

执行任务时,Figure 02 机器人能像人类一样自然地移动双手,同时调整头部和身体位置,以获得最佳的操作视角和活动范围。

据 Figure 官方介绍,这种全身协调的精准控制在机器人领域是一个重大突破,因为身体各部位的移动会相互影响,形成复杂的连锁反应,传统技术往往很难解决这个问题。

Helix 的另一个重大突破则是实现了真正的多机器人协作。

在测试中,两台 Figure 机器人共享同一套模型权重,无需为每台机器人单独训练或进行多阶段训练, 仅通过简单的语言指令就能默契配合。

比如,当系统收到「把饼干袋递给右边的机器人」,接着「将饼干袋放入抽屉」这样的连续指令时,两台机器人能完美配合完成任务,即使是首次遇到的物品也能手拿把掐。

打开网易新闻 查看精彩图片

降低训练成本是推动机器人普及的关键。 通过采用端到端的训练方法,Helix 能够直接从原始像素和文本命令映射到连续动作。

据悉,Helix 仅使用了约 500 小时的高质量监督数据(仅为传统方案的 5%),却实现了更强的泛化能力。而且,Helix 还通过梯度反向传播和时间偏移机制,让训练成果能够顺利地应用到实际场景中。

打开网易新闻 查看精彩图片

「这仅仅是 Helix 潜力的冰山一角,」Figure 公司表示,「如果将 Helix 规模扩大 1000 倍,当它能够驱动数百万个机器人时,将为人类社会带来巨大的改变。」

技术突破的背后有着资本市场的强力支持。Figure 在月初的时候表示,公司已与宝马制造公司以及一家未透露姓名的美国大客户达成合作。Adcock 透露,这些合作关系将为「未来四年内实现 10 万台机器人」奠定基础。

去年,这家人形机器人公司完成了 6.75 亿美元的 B 轮融资,投资方包括 OpenAI、微软、英伟达和 Jeff Bezos,融资后估值达到 26 亿美元。

据报道,该公司正洽谈再筹集 15 亿美元融资,若成功,其估值将升至 395 亿美元。

科技巨头对人形机器人领域的密集投资,或许预示着这个市场可能即将迎来拐点,家用机器人市场有望迎来类似智能手机的爆发期。