“转身,世界依然在那里。”
这听起来很哲学。
但它成了AI科学家,送给我们不可思议的礼物。
就在前几天,AI教母李飞飞教授的创业公司World Labs,完成名为RTFM(实时帧模型)的生成式世界模型。
它的核心魔力却非常简单。
给它一张静态图片,它能瞬间构筑一个完整的3D世界。
而你,还可以在这个世界里自由漫步。
当你转身离开,这个世界不会消失,它静静地、永恒地等待你的归来。
这一切,只需要一张H100 GPU来驱动。
过去,我们对元宇宙的所有想象,或许都错在了起点。
数字世界,不是用代码一砖一瓦堆砌的,而应该像这样“生长”出来。
“创世”体验
想象一下这个场景。
你手机里存着一张老家的书房照片,书桌、书架、窗外的树影,都定格在那一瞬。
现在,你把这张照片喂给RTFM。
下一秒,你不再是一个旁观者,你“走”进了这个书房。
你可以向前走,凑近书桌,看清上面摊开的书本字迹。
你可以向左转,端详书架上的每一本书的书脊。
你甚至可以抬头,看到天花板上的吊灯,以及它投下的柔和光影。
这不是简单的“360度全景图”,而是真正的三维空间。
你可以进行“推拉变焦”,感受镜头的真实感。
你甚至能模拟出鱼眼镜头的夸张失真效果,就像真的摄像机在拍摄。
关键在于,这个世界是“活”的。
它遵循物理规则,光滑的地板会映出倒影,阳光会投下动态的阴影。
镜头划过,光源会产生逼真的光晕。
所有这些复杂的效果,都不是程序员预设的。
而是RTFM通过观察海量视频数据后,自己“学会”的。
有网友体验后惊叹道:“或许我们身处的世界,也是运行在‘单张’H100 GPU上的。”
这虽是玩笑,却达出了那种震撼。
我们第一次拥有了在微观尺度上模仿“造物”的能力。
RTFM的选择充满智慧
创造世界,其实是吞噬算力的无底洞。
事实也的确如此。
李飞飞团队在博客中算了一笔账,这笔账让人倒吸一口凉气。
如果直接用现有AI视频技术,生成60帧的4K交互视频流。
每秒需要生成超过10万个token(文本单元)。
这是什么概念?
相当于每秒就要“写”出一本《哈利·波特与魔法石》的文本量!
而要维持一小时以上的持续交互,需要处理的上下文将超过1亿token。
用现在的技术硬刚,既不可行,也绝不经济。
就像在蒸汽机时代,非要造一架航天飞机,材料和技术都支撑不起这个蓝图。
但李飞飞和她的World Labs,走了一条更聪明、更智慧的路。
他们洞察到一个趋势,在AI领域,能随着计算能力提升而平滑扩展的简单方法,往往会成为主流。
换句话说,他们不追求在今天就造出“完全体”的终极模型。
而是设计一个能优雅地“骑”在摩尔定律肩膀上的模型。
他们的目标非常务实。
单张H100 GPU上,实现交互级的帧率和无限持久的世界。
它让高高在上的“世界模型”技术,在今天就能被触摸、被体验。
它不是一个实验室里的庞然大物,而是一个已经可以预览的未来。
三大原则铸就“永不消逝”
RTFM究竟是如何实现的呢?
它的设计围绕三个核心原则,这三大原则也是它成功的基石。
第一,效率。
这是硬指标,也是一切的起点。
单张H100就能跑,意味着极高的可部署性,它让实时交互成为可能。
第二,可扩展性。
这是RTFM最聪明的地方。
它彻底抛弃了传统3D图形学那套复杂,人工设计的“显式3D表征”。
比如三角网格、高斯泼溅。
相反,它采用了一种“端到端”的神经网络。
直接从视频数据里,学习世界的规律。
你可以把它理解成一个天生的“学习者”。
我们教孩子什么是猫,给他看无数张猫的图片。
而不是给他讲解猫的骨骼肌肉结构。
RTFM也是如此,它通过“观看”海量视频,自己总结出了光影、透视、材质的规律。
这意味着,给它更多、更好的数据,它的世界就会变得更逼真、更丰富。
第三,持久性。
这是最迷人的一点,也是“永不消逝”这个词的由来。
早期的类似模型有个致命问题。
你探索过的地方,生成的画面,如果你转身离开再回来,系统可能需要重新生成,而且很可能生成得不一样。
RTFM用了一个巧妙的办法,来解决这个问题。
“位姿帧”, 它为生成的每一帧画面,打上一个三维空间的坐标和朝向标签。
所有这些带位姿的帧,就构成了一个世界的“空间记忆系统”。
当你需要从一个新角度生成画面时,RTFM不会傻傻地去回忆全部的历史。
而是像我们人类一样,只“检索”你身边最近的、最相关的画面作为参考。
这个过程叫“上下文调度”。
正是这个机制,保证了这个世界拥有“永久记忆”。
你留下的每一个脚印,看过的每一处风景,都被妥善地安放在时空的某个坐标上,等待你的再次探访。
AI学会了“脑补”真实
RTFM的突破,还在于它模糊了一个传统界限,重建与生成。
过去,在计算机视觉里,“重建”是在已有视角间插值,填补空白,这相对精确。
然而“生成”却是无中生有,创造从未见过的内容,但也更容易“胡编乱造”。
RTFM把这两者融为了一体。
当输入的信息很充分,它就倾向于精确地“重建”,忠实还原。
当输入的信息很稀疏,它就会被“逼”着去进行合理的推测和“生成”。
像一个充满想象力的画家,帮你把画面补充完整。
它是更快的渲染器,更是“学习型的渲染器”。
反射、阴影这些让图形学程序员头疼不已的效果,RTFM不需任何人工指导。
仅通过观察学习,就能自主掌握。
它学会的,是世界的底层语法。
当人们理解了RTFM的技术内涵,再回头看它的创造者。
李飞飞教授的World Labs,其宏大的野心就清晰可见。
这家公司在今年4月成立,短短几个月内就融资约2.3亿美元。
估值突破10亿美元,吸引了a16z、英伟达、AMD等顶级资本。
李飞飞一直强调,AI领域真正难的问题是“空间智能”。
RTFM和它前身的模型Marble,正是攻克这一难题的利剑。
短期内,这项技术将颠覆内容创作行业。
游戏和电影的制作方式将被彻底改变。
如今,设计师提供一个概念图,一个完整的、可探索的虚拟场景就生成了。
这能节省的成本和时间是天文数字。
在游戏和电影之外,World Labs的规划非常明确。
构建理解空间、物理的模型;赋能增强现实(AR)和机器人技术。
AR是一个能理解真实世界三维几何,并能持久记忆的AI。
是数字信息稳定、逼真地融入现实的基础。
机器人需要在模拟世界中进行海量训练。
一个能够自动生成无限逼真、可交互训练环境的“世界模型”,是机器人普及的关键加速器。
RTFM的发布,像一个信号。
数字世界的基石,已经开始铺设。
它或许还不够完美,但已经在我们脚下展开。
在数字空间中,RTF创造一个永不消逝、遵守物理法则。
并能与我们实时交互的世界。
素材来源
1.《智东西》李飞飞造了个「永不消逝的世界」!单张GPU就能跑
2.《第一财经》“AI教母”李飞飞发布实时生成式世界模型!一张H100就能运行
3.《澎湃新闻》李飞飞发布全新世界模型,可在单张H100GPU上流畅运行
本文作者 | 柠檬雪
责任编辑 | 淡淡翠
策划 | 淡淡翠
热门跟贴