机器之心PRO · 会员通讯 Week 08

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 「世界通用模拟器」 Sora 真的能懂物理世界吗?

Sora 的技术有哪些独特之处?Sora 到底是不是世界模型?世界模型和生成视频的关系是什么?Sora 生成符合物理规律的视频是否意味着能理解物理世界?同期其他相关研究工作在技术路线上有哪些差异?...

2. 热归热,Groq 离取代英伟达 GPT 有多远?

Groq 为何一夜爆火?LPU 和 GPU 有什么区别?各方大佬都如何对比 Groq 和 H100 的成本?Groq 有希望取代 GPU 吗?...

3. YC 发布 2024 年最值得关注的 20 个创业方向

20 个 创业方向都有哪些?知名创投公司 YC 近期都投资了哪些方向的创业公司?涉及重点创业方向的公司目前发展的怎么样?...

...本期完整版通讯含 3 项专题解读 + 33 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 6 项,国外方面 15 项...

本期通讯总计 27819 字,可免费试读至 9 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

打开网易新闻 查看精彩图片

要事解读 ①世界通用模拟器」 Sora 真的能懂物理世界吗?

日期:2 月 16 日

事件:OpenAI 发布了文本到视频生成模型 Sora,因其生成效果惊艳,同时可以生成不同时长、长宽比和分辨率的视频和图像,最多可以输出长达一分钟的高清视频,打开了文生视频的新格局。Open AI 在 Sora 的技术报告中称「Video generation models as world simulators」,关于 Sora 是否是由数据驱动的物理引擎/世界模型,能否真正懂物理世界...等等引发了业内大佬们的热议。

Sora 的技术有哪些独特之处?

1、Open AI 受到大型语言模型通用训练的影响,将所有类型的视觉数据转化为统一表示 patches,采用时空 patches 充当 Transformer 的 tokens,这也是 Sora 的核心。研究者先将视频压缩到较低维的潜在空间,然后将表示分解为时空 patches,从而将视频转换为 patches。[3]

① patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。带有时间和空间信息,还可以自由排列,灵活度极高,可以用于训练不同类型的视频和图像的生成模型。

② patches 的概念最早出自于论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》,研究者提出将图像编码成一个个序列单元 patches。[1]

2、研究者通过降低视觉数据维度的网络将原始视频作为输入,输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练,而后生成视频。

3、同时,研究者将扩散 Transformer 用于视频生成,Sora 是个扩散模型,研究者通过给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的「干净」patches。

① Diffusion Transformers的技术被认为来源于 Sora 作者之一 William Peebles 的论文《Scalable diffusion models with transformers》。[2]

② 在该论文中,研究者提出了一种基于 transformer 架构的新型扩散模型即 DiT。研究者训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。然后通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

与以往文生视频模型相比,Sora 有哪些突破?

1、先前 Runway、Pika 等机构发布的文生视频产品及相关工作通常只关注一小类视觉数据、较短的视频或固定大小的视频。而 Sora 是视觉数据的通用模型,可以生成不同时长、长宽比和分辨率的视频和图像,而且最多可以输出长达一分钟的高清视频。

2、OpenAI 在技术报告中阐述了 Sora 的几项能力[4] ,包括:

① 3D 一致性。Sora 可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致移动。

② 长程一致性和物体永久性。对于视频生成系统来说,一个重要的挑战是在采样长视频时保持时间上的一致性。研究者发现,Sora 通常能够有效地建模短程和长程的依赖关系,但并非总是如此。

③ 与世界互动。Sora 有时可以模拟对世界产生简单影响的动作。例如,画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。

④ 模拟数字世界。Sora 能够模拟人工过程,例如在视频游戏中,Sora 可以同时使用基本策略控制 Minecraft 中的玩家,同时以高保真度渲染世界及其动态。

3、最为重要的是,Sora 不仅仅只是被看作为简单的视频生成模型,Open AI 认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。在技术报告中,Open AI 表示,「Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。」

Sora 是不是世界模型?重温「世界模型」的概念及演进

1、Sora 的发布,引起了关于「世界模型」的新一波热议。事实上,「世界模型」并非新的概念。2018 年,David Ha 和 Jürgen Schmidhuber 发表论文《World Models》,但并未论文中给出「世界模型」的定义,而是将心智模型的概念引入到了机器学习模型的构建中。

① 系统动力学之父杰伊-赖特-福雷斯特(Jay Wright Forrester)将心智模式描述为「我们头脑中关于周围世界的印象,只是一个模型。」没有人会在头脑中想象出所有的世界、政府或国家。他只有选定的概念以及它们之间的关系,并用这些概念来代表真实的系统。

② 同时,论文中指出,我们大脑中的预测模型预测的可能不是一般性的未来,而是基于我们的动作的未来的感官数据。这样,我们就能基于这个预测模型采取直觉行动,并在面临危险时执行快速反射行为。这个过程并不需要进行有意识的规划。

2、作为坚持「世界模型」的代表 Yann LeCun,其在发表的论文《A Path Towards Autonomous Machine Intelligence》[5] 中,将世界模型的描述为:

① 世界模型可能预测自然世界的演化,或者预测由行为主体模块提出的一系列动作所导致的未来世界状态。世界模型可以预测多个合理的世界状态,这些状态由潜在变量参数化,这些潜在变量代表对世界状态的不确定性。

② 世界模型是一种模拟世界相关方面的‘模拟器’。世界状态的哪些方面是相关的取决于手头的任务。配置器配置世界模型以处理当前的情况。预测是在包含与任务相关信息的抽象表示空间内进行的。

③ 理想情况下,世界模型会在多个抽象层次上操纵世界状态的表示,使其能够预测多个时间尺度。一个关键问题是,世界模型必须能够表示世界状态的多种可能预测。自然世界并不是完全可预测的。这一点尤为重要。(内容来自 Week 01 通讯内容)

3、南京大学人工智能学院俞扬认为,「世界模型」的核心是反事实推理(Counterfactual reasoning),即对于在数据中没有见过的决策,在 world model 中都能推理出决策的结果。[6]

① Sora 生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答 what if 问题。

② 当前 AI 研究者对于「世界模型」的追求,是试图超越数据,进行反事实推理,回答 what if 问题能力的追求。

4、未来实验室的首席专家胡延平认为,Sora 只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是世界模型。[7]

① Sora 主要是基于二维视觉的压缩扩散和时空表达,而不是一个物理引擎。Sora 的技术并不是基于物理世界规律的多维表征,而是通过视频生成模型的规模扩大,尝试构建能够模拟物理世界的通用模拟器。这意味着 Sora 更多地关注于二维视觉的生成和表达,而不是深层次的物理世界模拟。

② 尽管 Sora 展现出了生成逼真视频的能力,但其背后并不是基于物理规则或内在形状的数字构建。Sora 的工作原理更多是基于像素、位置、时空信息的变化和表征,而非直接模拟物理世界的规律。这表明 Sora 的技术实现和物理引擎之间存在本质的差异。

世界模型和生成视频的关系是什么?

1、在 Sora 的技术报告中,OpenAI 认为,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。[4]