世界模型正在爆发!

近段时间,世界模型的相关研究成果正如雨后春笋版不断涌现,光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。

事实上,在 Genesis 开源发布的差不多时间,一家名为 Odyssey 的创业公司也向世界介绍了他们的世界模型Explorer。与此同时,他们还宣布,皮克斯动画工作室的创始人、图灵奖得主 Ed Catmull 已加入该公司董事会并进行投资。在此之前的 11 月 13 日,该公司曾宣布已经完成 1800 万美元 A 轮融资。

打开网易新闻 查看精彩图片

据介绍,与 Genie 2 类似,Explorer 也能基于单张图像生成高质量 3D 世界。从该公司发布的 demo 来看,其生成的世界的质量和细节确实都非常出色。

打开网易新闻 查看精彩图片

从 Odyssey 的博客介绍来看,Explorer 是为 Odyssey 的目标或者说细分领域服务的:「我们(与皮克斯)有一个共同信念,那就是技术必须服务于故事和故事讲述者。在这个 AI 时代,尤其如此。」简而言之:故事为王(Story is king)。他们希望为「电影、游戏和其他领域带来下一个重大技术突破:生成式世界模型。」

和其它 demo 效果惊艳的生成模型一样,Explorer 同样也吸引了很多人的赞美。

打开网易新闻 查看精彩图片

Explorer:生成式世界模型

「最精彩的故事会带我们进入新的世界。」在《玩具总动员》、《头脑特工队》、《星球大战》、《沙丘》、《阿凡达》、《指环王》、《侏罗纪公园》、《荒野大镖客》和《最后生还者》等杰作中,艺术家花费了数万小时使用 3D 创作工具来以人工方式制作细节丰富的世界。这些世界中充满了独特的角色、风景和音乐。这些耗时的过程既是电影、游戏等的主要推动因素,也是瓶颈。

而 Explorer 可以简化这个过程。只需一张图片,就能得到一个非常具有真实感和丰富细节的 3D 世界。

尽管 Explorer 还处于很早期的阶段,但已经有望大幅提升电影和游戏兼容世界的创建速度,此外还可以实现全新的应用或娱乐形式。

Odyssey 在博客中展示了大量示例,这里我们也节选了一些给读者评鉴。 提示词:An underground workshop with a muscle car covered in a white cloth

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

提示词:An office interior from the 2000s

打开网易新闻 查看精彩图片

提示词:A Japanese garden, with rich, green foliage

Explorer 宣称具备多项优势。首先,其可以生成照片级真实度的世界,并且这也是该模型的核心优势之一。

打开网易新闻 查看精彩图片

提示词:A street in London. Brick wall

Explorer 也能生成运动的世界。该公司表示,尽管还处于研究早期,但生成式世界运动(generative world motion,全部为 3D)具有激动人心的前景,它可让艺术家以新的、更逼真的方式生成和操纵运动,此外还能提供生成视频模型难以复制的精细控制。

打开网易新闻 查看精彩图片

提示词:A family in the kitchen. Snowing

打开网易新闻 查看精彩图片

提示词:A serene coral reef

Explorer 还能生成高斯溅射(gaussian splats)。在过去的 18 个月里,世界上许多顶尖的计算机图形和视觉研究人员都在关注高斯溅射。原因很容易理解,溅射能够以令人难以置信的、几乎难以察觉的真实细节重建场景。有不少人相信这可能成为一种主导的 3D 表示形式。Explorer 也采用了溅射作为世界表示的形式。

打开网易新闻 查看精彩图片

Explorer 生成的世界还可以进行进一步的人工编辑

创意工具提供商已经注意到高斯溅射的发展势头,并已在 Unreal、Houdini、Blender、Maya、3D Studio Max、After Effects 等工具中增加了对溅射可视化和操作的早期支持。

这就意味着,可以使用这些工具来加载甚至编辑 Explorer 生成的世界。 使用 Blender 编辑后的世界

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

使用 Unreal 编辑后的世界

该公司表示,他们已经在生产流程中尝试过 Explorer:「为了测试 Explorer 是否已经为生产用途做好准备,我们最近与伦敦的 Garden Studios 进行了合作。我们将 Explorer 生成的世界传送到他们最先进的虚拟制作阶段(用于录制故事片、电视、商业广告、音乐视频等),并很高兴地确认我们生成的世界可以在当今的实际制作流程中使用。它们看起来非常棒。」

当然,Explorer 还处于早期阶段,很多地方并不完美,该公司也指出了一些有待优化的地方:

  • Explorer 还不支持实时世界生成,目前平均要 10 分钟才能完成一次生成。
  • 分辨率和世界完整性还有待提升,他们希望未来能无缝地扩展生成以填补任何空白并创建完整的球形世界。
  • 通过视频到世界和世界到世界输入,Explorer 的可控性有待进一步提升,其目标是能将真实世界中捕获的高斯溅射作为输入,并根据提示词或其它指导对其进行增强。

目前,Explorer 并未公开上线,但感兴趣的读者可自行尝试申请试用:
https://odyssey.systems/introducing-explorer

Odyssey:想用技术讲故事的 AI 公司

Odyssey 显然是一家早早就确立自己发展方向的创业公司。

打开网易新闻 查看精彩图片

该公司的创始人有两位,分别是担任 CEO 的 Oliver Cameron 和担任 CTO 的 Jeff Hawke。

打开网易新闻 查看精彩图片

两位创始人的 X 头像

其中 Oliver Cameron 曾在 Cruise 和 Voyage 参与开发自动驾驶汽车,而 Jeff Hawke 曾在 Wayve 领导开发自动驾驶深度学习模型。而他们的团队更是招募到了来自 Cruise、Waymo、Wayve、特斯拉、微软、Meta 和英伟达的多位研究者,以及参与开发过《孢子》、《模拟城市》、《模拟人生》、《异形:隔离》和《汤姆・克兰西》系列等视频游戏的工程师,参与过《沙丘 2》、《哥斯拉》、《造物主》、《复仇者联盟:奥创纪元》、《艾丽塔:战斗天使》和《侏罗纪世界:失落王国》等电影制作的技术艺术家。此外,该团队的多名成员都曾获得 BAFTA 奖。

打开网易新闻 查看精彩图片

可以看出,该公司有非常强的自动驾驶研发背景,他们在 11 月份的博客中也提到了这一点:「事实上,我们 90% 以上的技术人员的大部分职业生涯都是在 Cruise、Wayve、Waymo 和特斯拉等公司从事自动驾驶汽车的开发工作。这种经历让我们对构建世界的模型的问题有了独特的见解。」只不过,这一次,他们想要打造的不是在 3D 世界中导航的模型,而是生成世界的模型。

为此,他们首先考虑解决的问题是收集现实世界的数据。汽车可以完成其中一部分工作,但汽车也有去不到的地方,比如森林、洞穴、小径、海滩、冰川、公园等等。最终,他们想到了一个解决方案:人体收集。

打开网易新闻 查看精彩图片

是的,你没有看错!具体来说,这会用到一款轻巧的背包式计算机,其连接着分辨率极高的多模态传感器。该设备重 25 磅(约 11.3 kg),电池续航时间长,配备 6 个摄像头、2 个激光雷达和一个 IMU。这些传感器结合起来,可以 360 度捕捉我们的世界,分辨率为 13.5K,细节丰富,每次全景捕捉都包含物理精确的深度信息。更重要的是,由于人类可以精确控制传感器,因此它们可以确保捕捉到他们的生成模型可能需要的每一个角度。

现在我们知道 Explorer 的照片级真实感是从何而来了。

据了解,Odyssey 在今年 7 月 12 日宣布完成了种子轮融资,领投方是 Google Ventures。今年 11 月 13 日又宣布了完成了 1800 万美元 A 轮融资,领投方是 EQT Ventures。其官网也列出了一些投资者信息,从中我们还能看到 Jeff Dean 的名字,此外还有一些来自 OpenAI、DeepMind 和 Midjourney 等 AI 公司的研究者参与投资。

打开网易新闻 查看精彩图片

你觉得 Explorer 这个生成式世界模型的表现如何?你期待用 Explorer 生成的世界制作的电影或游戏吗?

参考链接:

https://x.com/odysseyml/status/1869417873938219360

https://odyssey.systems/learning-from-our-world

文中视频链接:https://mp.weixin.qq.com/s/3whlcE6wMkJNBXWAg4PZ1w?token=1202965932&lang=zh_CN