刚刚,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1)。

GO-1 是一个通过观看人类操作视频,让机器人像人类一样学习和执行各种任务的 AI 系统。

它提出了一种名为 ViLLA 的架构,主要由 VLM(多模态大模型)和 MoE(混合专家)组成:

1️⃣ VLM:通过互联网上的大量图片和文字数据,让机器人能看懂场景和理解语言指令。
2️⃣ Latent Planner(隐式规划器):MoE 中的 Latent Planner 通过分析人类操作的视频,学会了怎么规划动作。
3️⃣ Action Expert(动作专家):MoE 中的 Action Exper 通过真实的机器人操作数据,学会了怎么精确地执行动作,比如拿起东西、倒水等。

这三部分配合起来,让机器人可以像人类一样学习和执行任务。测试结果显示,GO-1 的表现比之前的最好模型强很多。

比如在「倒水」、「清理桌面」和「补充饮料」这些任务上,成功率从 46% 提升到了 78%,其中,加入「隐式规划器」后,成功率提高了 12%。

四大特点:

1️⃣人类视频学习:它可以通过互联网视频和人类示范来学习,更好地理解人类行为。
2️⃣ 小样本快速泛化:它只需要很少的数据就能学会新任务,降低了使用门槛。
3️⃣ 一脑多形:它可以适配不同形态的机器人,让它们都能变得更聪明。
4️⃣ 持续进化:它可以从实际操作中不断学习,越用越聪明。

智元曾发布一个叫 AgiBot World 的超大规模数据集,里面有超过 100 万条机器人操作的轨迹数据,覆盖了 217 个任务和五大场景。GO-1 正是基于这些数据训练出来的。

论文
https://agibot-world.com/blog/agibot_go1.pdf

智元官宣视频中还有一个 One more thing。智元机器人联合创始人彭志辉(网名「稚晖君」)刚刚也在社交媒体发文称「明天还有惊喜。」

彭志辉本科和研究生毕业于电子科技大学,曾以「华为天才少年计划」最高档年薪 201 万元加入华为,离职后创立智元机器人。

附上 APPSO 此前报道:

前华为天才少年稚晖君创业首秀:半年造出人形机器人,目标成本 20 万内

「天才少年」稚晖君发布 5 款人形机器人!会打麻将能到 4S 店当销售,还有一款 0 元免费送!