Genie 是比 Sora 更懂世界的世界模型？|genie|image|世界模型|视频生成模型

机器之心PRO · 会员通讯 Week 09

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1.Genie 是比 Sora 更懂世界的世界模型？

Genie 是什么样的世界模型？Genie 的 image-to-game 是什么意思？Genie 和 Sora 有何区别？大家对 Genie 的潜力怎么看？...

2. GEAR 会是英伟达衔接具身智能布局的齿轮吗？

Jim Fan 的新团队具体要做啥？英伟达在具身智能有哪些底蕴？英伟达近期都和谁在合作？英伟达已有哪些具身智能成果？...

3.Searchformer 会是补齐 Transformer 规划短板的拼图吗？

传统 Transformer 做推理有哪些局限？Searchformer 的创新在哪？Searchformer 好用吗？Searchformer 的发展空间有多大？...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 6 项，国外方面 11 项...

本期通讯总计 20502 字，可免费试读至 8 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①Genie 是比 Sora 更懂世界的世界模型？

日期：2 月 26 日

事件：谷歌近日发布基础世界模型 Genie，通过单张图像提示即可生成可玩的交互式环境。谷歌认为，其提出的生成式交互环境（Generative Interactive Environments），定义了生成式 AI 的全新范式。

谷歌发布 Genie 是个什么事儿？抢了 Sora 的风头了吗？

1、谷歌近期发布了 110 亿个参数的基础世界模型 Genie，可以根据文本、合成图像、照片甚至草图提示，生成无数种可控制动作的虚拟世界。Genie 基于 ST-Transformer 架构，是第一个在无监督学习下从互联网视频中训练出来的可生成交互环境的模型。

2、Genie 的核心在于能够在没有动作标签时学习控制。Genie 从超过 20 万个小时未标注的互联网游戏视频中训练，可以观察到哪些部分通常是可控的，且能推断出在生成环境中一致的各种潜在动作，允许用户通过潜在动作在生成的环境中进行交互。同时，Genie 是一种通用方法，可以应用于多个领域，不需要任何额外的领域知识。为此，谷歌认为，Genie 是实现通用 Agent 的基石之作。

3、对于 Genie 模型，英伟达高级研究科学家 Jim Fan 表示，「Tim 是我所知道的最有想象力的研究者之一，而 Genie 是他最具想象力的作品。不同于 Sora，Genie 实际上是一个以推断合适动作为驱动的世界模型。2024 年也将是基础世界模型的一年！」

关于 Genie 的技术，有哪些值得关注？[2]

1、Genie 是第一个以无监督方式从未标记的互联网视频中训练生成的交互式环境。Genie 模型根据文本、合成图像、照片甚至草图提示，生成无数种可控制动作的虚拟世界。

2、Genie 模型最突出的技术特点是基于无监督学习，一般模型的训练通常需要直接从环境获得的动作条件数据。而 Genie 的无监督学习过程，模型的训练不依赖于人工标注的数据，而是直接从互联网上收集的海量视频内容中学习。

3、Genie 模型包含三个核心组件：

① 潜在动作模型（Latent Action Model ，LAM）：用于推理每对帧之间的潜在动作；

② 时空视频分词器（Spatiotemporal Video Tokenizer）：用于将原始视频帧转换为离散 token ；

③ 动态模型：采用 Masked Generative Image Transformer（MaskGIT）的解码器-only 结构，基于前一帧的标记和潜在动作来预测下一帧。

4、Genie 的核心设计之一在于，其在所有模型组件中采用内存高效的 ST-transformer 架构，以此平衡模型容量与计算约束。

① Genie 架构中的多个组件基于 Vision Transformer （ViT）构建而成，而视频最多可以包含（10^4 ）个 token，故 Transformer 的二次内存成本给视频领域带来了挑战。

② ST-transformer 通过空间和时间注意力层以及前馈层，能有效地处理视频数据，使得计算复杂度与帧数成线性关系，对于处理长视频序列尤为重要。

Genie VS Sora：都是视频数据训练出来的，技术方案有何不同？

1、Sora 与 Genie 均由视频数据训练所得，但两者的出发点有着本质的不同。

① Sora 是一个创新的文本到视频生成模型，即 text-to-video，其目的是将用户的文本指令转化为高质量的视频内容，生成的视频需要靠模型对 prompt 的理解和推理能力，其过程没有交互。

② Genie 的目标则是创建一个能够生成交互式、可玩环境的基础世界模型，即 image-to-game。Genie 提供了交互的机会，以初始输入图像或生成的图像中的潜在动作（latent action）为核心，它作为一组条件，使得模型生成的下一帧图像是可控的，用户可以指定场景接下来以什么动作/剧情继续生成，并不断持续。