打开网易新闻 查看精彩图片

2025年的AI圈,一半是火焰一半是海水。

这边OpenAI的山姆・奥特曼还在全球飞着囤显卡,为了Sora2的生成模型砸下几十亿美金算力订单;

那边李飞飞带着她的WorldLabs团队悄悄扔出了颗“炸雷”——一款叫RTFM的模型,只用一张显卡就能撑起一个能随便逛的3D世界。

打开网易新闻 查看精彩图片

这事儿往小了说,是AI建模少花了几百万;往大了说,可能直接改写了“世界模型”的游戏规则。

毕竟在此之前,业内都默认“造虚拟世界就得烧钱堆算力”,没人想过能在单块显卡上把这事办成。

造个虚拟世界,得烧多少真金白银?

要理解RTFM的突破有多狠,得先搞懂现在的AI“造世界”有多烧钱。

咱们先看组数据:有研究算过,要实时生成4K60帧的交互,AI每秒得处理相当于一整本《哈利・波特》的tokens量。

要是想让用户在里面逛上一小时不翻车,需要处理的内容得超过1亿个tokens——这可不是简单加几张显卡能解决的,得搭个小几百万的算力集群。

OpenAI的Sora就是个典型例子,去年刚出来时靠25秒的高清震撼全网,但它本质就是个“生成器”,生成完就结束了,你没法走进画面里转个身,更不能碰一下里面的杯子。

打开网易新闻 查看精彩图片

sora生成的人物面部特写

即便如此,Sora单次生成的算力成本就够普通公司吃半年。

谷歌更夸张,今年8月发布的Genie3号称能做可交互世界,但也得靠多GPU集群撑着,普通开发者连试用资格都拿不到。

算力有多贵?看看英伟达H100显卡的价格就知道了。

2023年巅峰时,单张H100的租赁价能炒到8美元/小时,8卡整机卖300多万;就算到了2024年价格崩盘,8卡整机还得230万左右,单张卡售价仍在25000美元以上。

对大多数团队来说,想碰“世界模型”,光算力门槛就把人挡在了门外。

更头疼的是传统3D路线的局限。像腾讯混元3D那样的技术,得靠工程师手动建模、上材质、打光,跟搭积木似的一步都不能错,一个复杂场景可能要做几个月。

就算做出来了,也没法随便改——想换个阳光角度?得重新渲染大半天。这种“费力不讨好”的模式,早就让行业憋着股改革的劲儿了。

李飞飞的“反卷”方案

就在大家都往“堆算力”的死胡同里挤的时候,李飞飞团队走了条完全相反的路。

10月刚发布的RTFM(Real-TimeFrameModel),核心就一个狠活儿:单块H100GPU就能实时跑起来

打开网易新闻 查看精彩图片

你没看错,不是8卡集群,也不是云算力加持,就是单张显卡,就能生成一个能自由漫步的3D世界,光影、倒影、阴影还都跟真的一样。

我特地去试了试他们的Demo“FRAMEBOY”,网页布局做得特怀旧,像当年的GameBoy游戏机,左右两个摇杆控制方向。

上传了一张我家客厅的照片,也就等了两秒,屏幕里就出现了可旋转的3D场景——大理石茶几的倒影会跟着视角动,阳台的阳光照在地板上的光斑位置还能随角度变化,甚至透过玻璃窗能隐约看到外面的树。

拖着摇杆逛了十分钟,画面没卡过一次,这体验比不少端游还流畅。

这事儿的关键突破在哪儿?在于李飞飞团队喊出的目标:“在今天的硬件上,跑明天的模型”。

他们没跟别人比谁的模型参数大,而是死磕“优化”——把模型架构拆了重改,用蒸馏技术压缩冗余部分,连推理流程都重构了一遍。

就这么“抠细节”,硬是把原本需要集群支撑的算力需求,压到了单张H100上。

更有意思的是RTFM和自家老产品的区别。今年九月中旬发布的Marble,虽然也能“图生3D”,但只能看不能动,相当于个静态模型;

而RTFM直接升级成了“可交互世界”——你能往前走两步看看沙发背面,也能转身瞧瞧阳台的细节,整个场景是“活”的。

打开网易新闻 查看精彩图片

这种从“看”到“逛”的跨越,比单纯堆参数有价值多了。

AI怎么做到“既聪明又省钱”?

能让单张显卡撑起一个世界,靠的不是运气,而是RTFM背后藏着的三个技术“密码”。

第一个是效率优化,这是最关键的“节流”手段。

前面说过,实时交互的算力需求堪比“每秒读一本《哈利・波特》”,RTFM的解法是“精准用料”。

团队放弃了传统3D引擎的“全量渲染”,只计算当前视角需要的画面,没用的细节直接忽略。

就像你逛超市,不会把所有货架都记在脑子里,只会关注眼前想看的商品。通过这种“按需计算”,算力消耗直接砍了大半。

第二个是可扩展性,说白了就是“不跟硬件较劲,跟数据较劲”。

传统3D引擎靠三角网格、体素渲染这些“硬功夫”,得工程师懂图形学才行;

RTFM走的是“端到端学习”的路子,跟Sora类似,用“自回归扩散Transformer”架构,让模型自己看海量学规律。

它不用知道“这是墙”“那是灯”,只要看够了,自然就明白“从哪个角度能看到墙后面的东西”“灯光照过来会有什么影子”。

这种靠数据喂出来的“空间感”,比人工建模灵活多了——数据越多,模型越聪明,根本不用重构底层代码。

打开网易新闻 查看精彩图片

RTFM 对地板上的复杂阴影和反射进行建模

第三个是持久性,解决了AI“记性差”的老毛病。

之前的模型比如Sora,生成25秒就“断片”了,没法持续交互;就算有的模型能记事儿,记的东西多了也会变卡。

RTFM的解法是“空间记忆+上下文杂耍”:给每帧画面都标上3D坐标(位置和方向),生成新画面时,只调附近的帧当参考,不翻全局的旧账。

就像你找钥匙只会在门口附近找,不会把整个家翻一遍。这样一来,就算逛半小时,计算负担也不会涨多少,只是Demo目前还限制在3分钟,估计是怕长时间运行发热出问题。

这三个技术捏在一起,就成了RTFM的核心竞争力:不依赖昂贵硬件,靠数据和优化就能迭代,还能保持交互的连贯性。

这种“轻装上阵”的思路,跟OpenAI“堆算力”的打法形成了鲜明对比。

RTFM到底比Sora、Genie3强在哪?

光说RTFM厉害不够直观,咱们把它跟行业里的几个“明星选手”放一起比比,差距就清楚了。

先看跟OpenAISora的区别:Sora是“拍电影的”,RTFM是“建游乐场的”

Sora能生成25秒震撼,但画面是固定的,你没法改变剧情;

RTFM生成的是“可逛的空间”,你想怎么走就怎么走,画面实时跟着变。

打开网易新闻 查看精彩图片

打个比方,Sora给你看一段游乐园,RTFM直接让你进游乐园自己玩。

再对比谷歌Genie3:两者都主打“可交互”,但RTFM的门槛低太多。

Genie3虽然能支持几分钟交互,还能变天气,但得靠多GPU集群撑着,普通开发者根本用不起;

RTFM单卡就能跑,Demo直接开放给所有人试玩。而且Genie3的视觉保真度不如RTFM,玻璃反光、阴影层次这些细节差了一截。

跟腾讯混元3D比,路线完全不同:混元是“做积木的”,RTFM是“变魔术的”

混元3D擅长生成高精度3D资产,比如一个椅子模型能直接导出用,但得手动拼场景;

RTFM不用拼积木,一张图直接变出整个场景,虽然没法导出单个资产,但胜在快和灵活。

要是做游戏原型,用RTFM半天就能搭个场景,用混元可能得花一周。

这么一看,RTFM的差异化优势很明显:它不是第一个做“世界模型”的,但却是第一个把“高保真”“实时交互”“低成本”这三个刚需捏在一起的。

对行业来说,这意味着以前只有大厂玩得起的“虚拟世界”,现在中小团队甚至个人开发者都能碰了。

打开网易新闻 查看精彩图片

现实瓶颈与未来

当然,现在的RTFM还不是完美的,离我们想象中的“元宇宙”还差着好几步。

最直观的局限是“记忆太短”。Demo只能玩3分钟,时间一到模型就“失忆”,再进去就得重新生成场景。

虽然团队说未来能通过优化延长时间,但目前来看,想实现“逛几小时不中断”还得解决不少技术问题。

另一个门槛是硬件。虽说“单卡可运行”比集群进步多了,但H100再便宜也是25000美元以上,普通用户肯定买不起。

不过好消息是,H100的价格正在暴跌,从2023年的8美元/小时跌到了现在的2-3美元/小时,未来要是换成更便宜的L40S显卡,门槛还能再降一截。

还有交互深度不够。现在只能“逛”,不能“碰”——你没法拿起茶几上的杯子,也不能打开电视换频道。

李飞飞团队说接下来会加物体交互功能,但这需要模型理解“物理规律”,比如杯子掉地上会碎,这可比“生成画面”难多了。

但即便有这些不足,RTFM的意义也已经超出了技术本身。

它证明了“世界模型”不一定非得靠烧钱堆出来,靠优化和巧思同样能突破;更重要的是,它把“空间智能”这个AGI的关键方向,从实验室拉到了普通人能接触到的层面。

李飞飞之前说“空间智能才是AGI的下一站”,现在看来,她不是在画饼。

打开网易新闻 查看精彩图片

按照这个节奏走,未来的发展路径其实很清晰:先等算力价格再降降,让普通电脑也能跑起来;

再把交互深度做上去,实现“能逛能玩能操作”;最后打通现实与虚拟的连接,比如用手机拍张街景就生成可交互的数字孪生场景。

到那时候,《头号玩家》里的虚拟世界可能真不是幻想了。

说到底,RTFM的发布就像给AI行业泼了盆冷水——不是所有突破都得靠砸钱,找准方向死磕细节,照样能改写游戏规则。

而对我们普通人来说,这或许意味着:用AI造个属于自己的虚拟世界,可能比想象中来得更早。