OpenAl囤卡烧钱忙，李飞飞反其道而行:单卡创造可逛3D世界

阅识

2025-10-19 14:17 ·上海

2025年的AI圈，一半是火焰一半是海水。

这边OpenAI的山姆・奥特曼还在全球飞着囤显卡，为了Sora2的生成模型砸下几十亿美金算力订单；

那边李飞飞带着她的WorldLabs团队悄悄扔出了颗“炸雷”——一款叫RTFM的模型，只用一张显卡就能撑起一个能随便逛的3D世界。

这事儿往小了说，是AI建模少花了几百万；往大了说，可能直接改写了“世界模型”的游戏规则。

毕竟在此之前，业内都默认“造虚拟世界就得烧钱堆算力”，没人想过能在单块显卡上把这事办成。

造个虚拟世界，得烧多少真金白银？

要理解RTFM的突破有多狠，得先搞懂现在的AI“造世界”有多烧钱。

咱们先看组数据：有研究算过，要实时生成4K60帧的交互，AI每秒得处理相当于一整本《哈利・波特》的tokens量。

要是想让用户在里面逛上一小时不翻车，需要处理的内容得超过1亿个tokens——这可不是简单加几张显卡能解决的，得搭个小几百万的算力集群。

OpenAI的Sora就是个典型例子，去年刚出来时靠25秒的高清震撼全网，但它本质就是个“生成器”，生成完就结束了，你没法走进画面里转个身，更不能碰一下里面的杯子。

sora生成的人物面部特写

即便如此，Sora单次生成的算力成本就够普通公司吃半年。

谷歌更夸张，今年8月发布的Genie3号称能做可交互世界，但也得靠多GPU集群撑着，普通开发者连试用资格都拿不到。

算力有多贵？看看英伟达H100显卡的价格就知道了。

2023年巅峰时，单张H100的租赁价能炒到8美元/小时，8卡整机卖300多万；就算到了2024年价格崩盘，8卡整机还得230万左右，单张卡售价仍在25000美元以上。

对大多数团队来说，想碰“世界模型”，光算力门槛就把人挡在了门外。

更头疼的是传统3D路线的局限。像腾讯混元3D那样的技术，得靠工程师手动建模、上材质、打光，跟搭积木似的一步都不能错，一个复杂场景可能要做几个月。

就算做出来了，也没法随便改——想换个阳光角度？得重新渲染大半天。这种“费力不讨好”的模式，早就让行业憋着股改革的劲儿了。

李飞飞的“反卷”方案

就在大家都往“堆算力”的死胡同里挤的时候，李飞飞团队走了条完全相反的路。

10月刚发布的RTFM（Real-TimeFrameModel），核心就一个狠活儿：单块H100GPU就能实时跑起来。

你没看错，不是8卡集群，也不是云算力加持，就是单张显卡，就能生成一个能自由漫步的3D世界，光影、倒影、阴影还都跟真的一样。

我特地去试了试他们的Demo“FRAMEBOY”，网页布局做得特怀旧，像当年的GameBoy游戏机，左右两个摇杆控制方向。

上传了一张我家客厅的照片，也就等了两秒，屏幕里就出现了可旋转的3D场景——大理石茶几的倒影会跟着视角动，阳台的阳光照在地板上的光斑位置还能随角度变化，甚至透过玻璃窗能隐约看到外面的树。

拖着摇杆逛了十分钟，画面没卡过一次，这体验比不少端游还流畅。

这事儿的关键突破在哪儿？在于李飞飞团队喊出的目标：“在今天的硬件上，跑明天的模型”。

他们没跟别人比谁的模型参数大，而是死磕“优化”——把模型架构拆了重改，用蒸馏技术压缩冗余部分，连推理流程都重构了一遍。

就这么“抠细节”，硬是把原本需要集群支撑的算力需求，压到了单张H100上。

更有意思的是RTFM和自家老产品的区别。今年九月中旬发布的Marble，虽然也能“图生3D”，但只能看不能动，相当于个静态模型；

而RTFM直接升级成了“可交互世界”——你能往前走两步看看沙发背面，也能转身瞧瞧阳台的细节，整个场景是“活”的。

这种从“看”到“逛”的跨越，比单纯堆参数有价值多了。

AI怎么做到“既聪明又省钱”？

能让单张显卡撑起一个世界，靠的不是运气，而是RTFM背后藏着的三个技术“密码”。

第一个是效率优化，这是最关键的“节流”手段。

前面说过，实时交互的算力需求堪比“每秒读一本《哈利・波特》”，RTFM的解法是“精准用料”。

团队放弃了传统3D引擎的“全量渲染”，只计算当前视角需要的画面，没用的细节直接忽略。

就像你逛超市，不会把所有货架都记在脑子里，只会关注眼前想看的商品。通过这种“按需计算”，算力消耗直接砍了大半。

第二个是可扩展性，说白了就是“不跟硬件较劲，跟数据较劲”。

传统3D引擎靠三角网格、体素渲染这些“硬功夫”，得工程师懂图形学才行；

RTFM走的是“端到端学习”的路子，跟Sora类似，用“自回归扩散Transformer”架构，让模型自己看海量学规律。

它不用知道“这是墙”“那是灯”，只要看够了，自然就明白“从哪个角度能看到墙后面的东西”“灯光照过来会有什么影子”。

这种靠数据喂出来的“空间感”，比人工建模灵活多了——数据越多，模型越聪明，根本不用重构底层代码。

RTFM 对地板上的复杂阴影和反射进行建模

第三个是持久性，解决了AI“记性差”的老毛病。

之前的模型比如Sora，生成25秒就“断片”了，没法持续交互；就算有的模型能记事儿，记的东西多了也会变卡。

RTFM的解法是“空间记忆+上下文杂耍”：给每帧画面都标上3D坐标（位置和方向），生成新画面时，只调附近的帧当参考，不翻全局的旧账。

就像你找钥匙只会在门口附近找，不会把整个家翻一遍。这样一来，就算逛半小时，计算负担也不会涨多少，只是Demo目前还限制在3分钟，估计是怕长时间运行发热出问题。

这三个技术捏在一起，就成了RTFM的核心竞争力：不依赖昂贵硬件，靠数据和优化就能迭代，还能保持交互的连贯性。

这种“轻装上阵”的思路，跟OpenAI“堆算力”的打法形成了鲜明对比。

RTFM到底比Sora、Genie3强在哪？

光说RTFM厉害不够直观，咱们把它跟行业里的几个“明星选手”放一起比比，差距就清楚了。

先看跟OpenAISora的区别：Sora是“拍电影的”，RTFM是“建游乐场的”。

Sora能生成25秒震撼，但画面是固定的，你没法改变剧情；

RTFM生成的是“可逛的空间”，你想怎么走就怎么走，画面实时跟着变。

打个比方，Sora给你看一段游乐园，RTFM直接让你进游乐园自己玩。

再对比谷歌Genie3：两者都主打“可交互”，但RTFM的门槛低太多。

Genie3虽然能支持几分钟交互，还能变天气，但得靠多GPU集群撑着，普通开发者根本用不起；

RTFM单卡就能跑，Demo直接开放给所有人试玩。而且Genie3的视觉保真度不如RTFM，玻璃反光、阴影层次这些细节差了一截。

跟腾讯混元3D比，路线完全不同：混元是“做积木的”，RTFM是“变魔术的”。

混元3D擅长生成高精度3D资产，比如一个椅子模型能直接导出用，但得手动拼场景；

RTFM不用拼积木，一张图直接变出整个场景，虽然没法导出单个资产，但胜在快和灵活。

要是做游戏原型，用RTFM半天就能搭个场景，用混元可能得花一周。

这么一看，RTFM的差异化优势很明显：它不是第一个做“世界模型”的，但却是第一个把“高保真”“实时交互”“低成本”这三个刚需捏在一起的。

对行业来说，这意味着以前只有大厂玩得起的“虚拟世界”，现在中小团队甚至个人开发者都能碰了。

现实瓶颈与未来

当然，现在的RTFM还不是完美的，离我们想象中的“元宇宙”还差着好几步。

最直观的局限是“记忆太短”。Demo只能玩3分钟，时间一到模型就“失忆”，再进去就得重新生成场景。

虽然团队说未来能通过优化延长时间，但目前来看，想实现“逛几小时不中断”还得解决不少技术问题。

另一个门槛是硬件。虽说“单卡可运行”比集群进步多了，但H100再便宜也是25000美元以上，普通用户肯定买不起。

不过好消息是，H100的价格正在暴跌，从2023年的8美元/小时跌到了现在的2-3美元/小时，未来要是换成更便宜的L40S显卡，门槛还能再降一截。

还有交互深度不够。现在只能“逛”，不能“碰”——你没法拿起茶几上的杯子，也不能打开电视换频道。

李飞飞团队说接下来会加物体交互功能，但这需要模型理解“物理规律”，比如杯子掉地上会碎，这可比“生成画面”难多了。

但即便有这些不足，RTFM的意义也已经超出了技术本身。

它证明了“世界模型”不一定非得靠烧钱堆出来，靠优化和巧思同样能突破；更重要的是，它把“空间智能”这个AGI的关键方向，从实验室拉到了普通人能接触到的层面。

李飞飞之前说“空间智能才是AGI的下一站”，现在看来，她不是在画饼。

按照这个节奏走，未来的发展路径其实很清晰：先等算力价格再降降，让普通电脑也能跑起来；

再把交互深度做上去，实现“能逛能玩能操作”；最后打通现实与虚拟的连接，比如用手机拍张街景就生成可交互的数字孪生场景。

到那时候，《头号玩家》里的虚拟世界可能真不是幻想了。

说到底，RTFM的发布就像给AI行业泼了盆冷水——不是所有突破都得靠砸钱，找准方向死磕细节，照样能改写游戏规则。

而对我们普通人来说，这或许意味着：用AI造个属于自己的虚拟世界，可能比想象中来得更早。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴