打开网易新闻 查看精彩图片

作者| 沐风

来源| 创头条

两周年后,生成式AI即将迈入另一个全新的时代?

2022年11月30日,ChatGPT惊艳发布,从此生成式AI一路狂奔,刚好两年。

2024年12月3日, World Labs 推出了一项突破性技术 - 从单张图像生成完整3D世界的 AI 系统。

斯坦福大学教授、World Labs 联合创始人李飞飞称,视觉能力引发了寒武纪大爆发,而类似的时刻,即将发生在计算机和机器人身上。

“我们正在经历AI领域的现代版寒武纪大爆发。”她说。

而World Labs 的这个突破,就是她开启生成式AI新纪元的钥匙。

李飞飞说,“我们需要从大语言模型,转向大型世界模型”。

这种转向的可能,首先基于大语言模型面临的数据“撞墙”问题。

据媒体报道,OpenAI 、Google 、Anthropic 的下 一代大模型,均未达到预期效果,原因就在于用于预训练的文本和数据供应减少,“现有大模型开发已经耗尽了网站、书籍和其他用于预训练的公开文本”。

有行业研究预计,如果大型语言模型(LLM)保持现在的发展势头,预计在2028年左右,已有的数据储量将被全部利用完。

届时,基于大数据的大模型的发展将可能放缓甚至陷入停滞。

《Nature》研究文章称,当AI 大模型被训练在由先前版本的AI生成的数据上时,很快就会导致模型产生无意义的内容。这种现象被称为“模型崩溃”。

这是与人类衍生训练数据耗尽之外,阻碍大型语言模型(LLMs)改进的另一个重要原因。

在此情况下,生成式 AI如何才能实现二次跃升?

“转向”的更重要内涵则在于,World Labs技术为生成式AI 的发展,提供了另一种逻辑路径。

即,我们与世界的互动方式,更基础的是基于视觉,还是语言?

李飞飞在《经济学人》撰文指出,最初,生成式AI革命是由模仿人类语言智能的大型语言模型、如ChatGPT驱动的。

但她相信,“基于视觉的智能——我称之为空间智能——更为基础。语言固然重要,但作为人类,我们理解和与世界互动的很大一部分能力是基于我们所看到的”。

实际上,计算机视觉也一直是生成式AI 发展的一个子集。在视觉领域,如 ChatGPT、Sora 等多模态大模型,不仅能够识别,还能根据文本提示生成图像和视频。效果令人越来越惊艳。

但基本上这些大语言模型仅限于2D。

World Labs突破就在于:

1、让生成式AI 真正开始实现了从 2D 到 3D 的跨越

2、空间智能概念的落地,即AI在三维空间和时间中对世界进行建模,并对物体、场所和交互进行推理的能力。

3、不仅生成3D世界,还允许用户在其中自由交互,这是传统大模型所不具备的。它标志着AI从处理语言和文本信息向理解和操作3D物理世界的转变。

技术上的突破,必将带来生成式AI应用场景的开辟。

最直接的就是,内容创作的革命性变化。比如,电影、游戏、模拟器等的创作、展现方式会被改写和极大拓展。

World Labs联合创始人贾斯汀·约翰逊(Justin Johnson)在接受采访时表示:“传统的虚拟互动世界开发需要投入数亿美元和大量时间。我们的世界模型技术将让创作者不只是得到一张图片或一段视频,而是能够获得一个完全模拟的、充满活力的、可交互的3D世界。”

李飞飞曾这样憧憬新打开的世界,“想象一下能够在家中导航并照顾老人的机器人;为外科医生提供的一双不知疲倦的额外双手;以及在模拟、培训和教育中的用途”。

“这是真正的以人为中心的AI,空间智能是其下一个前沿”。李飞飞写道。

下面,我们可以通过基于World Labs技术生成的一些作品,管窥下这个正在到来的新世界:

 从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?
打开网易新闻 查看更多视频
从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?

 从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?
打开网易新闻 查看更多视频
从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?

 从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?
打开网易新闻 查看更多视频
从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?

 从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?
打开网易新闻 查看更多视频
从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?

 从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?
打开网易新闻 查看更多视频
从大语言模型到世界模型,李飞飞World labs 开启生成式AI第二纪元?

(关联阅读:AI先锋官公众号: 一张图就可生成可互动 3D 场景,李飞飞world labs 最全视频 Demo 合集)

当然,这项技术仍有改进空间。比如,用户的移动范围仍然受限于较小的区域,一旦超出边界就会遇到限制,碰到所谓的“空气墙”。

有时还会出现渲染错误,例如物体之间会以不自然的方式混合在一起。

不过,World Labs表示这些只是“早期预览”,他们正在努力提升生成世界的规模和真实度,并探索新的交互方式。

目前,World Labs只是向公众发布了关于该技术的博客,人们能够体验的功能极为有限,而且并未放出任何代码和模型。

至于如何尝鲜,World Labs现在开放了Waitlist候补名单,感兴趣的可以点击文末链接申请。

值得一提的是,World Labs计划在2025年推出首款正式产品。

“World Labs”由李飞飞在今年4月创立。

这也是她被曝出的首次创业。成立 3个月时间,公司估值突破 10亿美元,成为新晋独角兽。

公开资料显示,a16z、NEA和Radical Ventures、Adobe、AMD、Databricks,以及老黄的英伟达都在投资者之列。

博客:

https://www.worldlabs.ai/blog

候补名单:

https://docs.google.com/forms/d/e/1FAIpQLSf9jHsaDq1IwM_FADQP0Gbd82tbW4CBOI5YfUAdPfqrFrWEeA/viewform

图片来源|网络