独家对话｜10 秒造 3D！DeepMind Genie 3 引爆“沉浸式现实”万亿市场|deepmind|genie|vr|机器人|沉浸式|知名企业|谷歌

全文 4,000字 | 阅读约 13 分钟

（DeepMind独家对话：Genie 3背后的万亿级市场机会）

10秒，足够改变一切。

只需一行提示词，Genie 3 就能在你眼前铺开一个 720p、24fps 的 3D 世界。你可以操控、穿梭、改天换地。甚至几分钟前转身丢下的苹果，它也能准确记住。

这不是 demo，不是预渲染。

你看到的，是一个真的能“进去”的世界。

这背后不是魔术，而是 DeepMind 最新一次发布的成果。

在 8月 5 日《Machine Learning Street Talk》的独家专访中，DeepMind 研究总监 Shlomi Fuchter 首度披露：

Google DeepMind 刚刚发布的 Genie 3，是首个实时交互的通用世界模型。从此，生成的不再是视频，而是一整个“可玩宇宙”。

这背后的意义远超技术演示。它代表了一种新型 AI 能力的觉醒：

不需要明确的 3D 编程、物理规则、建模语言
控制器输入直接驱动神经网络生成世界
系统自己“记住”“理解”“构造”“重现”

而马斯克的评价更为直接：

但 Genie 的意义，远不止娱乐。

这是一个可以训练机器人、构建虚拟仓库、模拟社交互动，甚至构建下一代“数字孪生地球”的全新起点——当内容生成速度与沉浸交互深度相结合，就诞生了新的平台级入口。

市场也已给出信号。

据 Transparency Market Research 预测，沉浸式现实（XR）将在 2030 年突破 1.1 万亿美元市场规模，年复合增长率超 40%。而 Genie 3 的出现，正击中这个万亿市场最核心的痛点——内容创作效率低下。

这不仅是一项技术革命，更可能是一场平台级迁徙的开始。

第一节｜Genie 3：开启“可走进去”的 AI 世界

你可能会以为，这只是一个更逼真的视频生成工具。

但在 DeepMind 的两位核心研究人员眼中，Genie 3 和 Sora、Runway 、Kling 这些视频生成工具，甚至和 Unreal 这类传统技术，根本不在一个层次上。

Shlomi 开场就把 Genie 3 的定位讲得很清楚：

“我们不是生成一段视频，也不是复制一个场景，而是在创造一个可以‘动’的世界。”

第一个不同：从被动观看到主动体验

当前的视频生成模型（如 VEO 或 Sora），做得再好，也只能把提示词变成一段可以看的画面。你无法控制、无法互动，它只是一个“提前写好的片段”。

而 Genie 3 不同。

它不是“看完就结束”，而是“你能进去玩”，还能和场景互动、自由创造。

主持人用更直接的方式总结：

“这就像你走进了提示词写出的那个世界，每一步都是 AI 实时搭出来的。”

第二个不同：无需编程，智能涌现

Genie 3 不靠明确的物理引擎，也不需要手动设定灯光、材质、碰撞规则。

不像游戏引擎那样需要一个个模块去搭建，它只是接收一句提示词或控制器的输入，其余一切——包括世界长什么样、东西怎么动、事件怎么触发，全部由神经网络自动生成。

更令人惊讶的是：它还展现出一种"记住世界"的能力。

你曾看过的地方，再回来时，细节依然还在——不是因为程序预先设定好，而是它似乎“自然地知道”你去过那里。

Shlomi 解释说：

“它没有做出什么显式的 3D 构图，也没有把每个物体写成规则，它只是学会了：如果你去过某地，再回来，那里应该还在。”

第三个不同：实时生成，灵活可控

这不是静态的背景，而是一个“活的世界”。

你输入一句话：“一个穿 Genie T 恤的滑雪者出现”，模型就会让这个角色从远处滑下来。你再说：“一只鹿跑过”，它就真的在画面中跑过一只鹿。

Shlomi 说：

“这就是可提示的世界事件（prompted world events）。”

你不用重新制作，不用修改任何设置，只要说一句话，整个世界就会响应你的想法。

✅小结：Genie 3 做到三件老模型做不到的事

看到 Genie 3 的表现，英伟达高级 AI 研究科学家 Jim Fan 预测：

“UE5 （虚幻引擎5，知名游戏开发软件）那些复杂的技术，终将被一团 AI 神经网络搞定。”

换言之，AI 将直接学会创造世界，不再需要复杂的开发工具。

第二节｜Genie 3 的沉浸级能力，有多超前？

如果说传统视频模型让你'看世界'，那 Genie 3 则让你'进入世界'——真正的沉浸式交互体验。

DeepMind 研究科学家 Jack Parker Holder 说：

视频生成模型看起来像电影，Genie 更像是你能进到里面的游戏。

但这不是技术升级，而是体验革命：你能真正参与其中、影响场景发展、感受到 AI 的记忆能力—— AI 不再只是生成内容，而是成为你的世界创造伙伴。

以下，是 Genie 3 展示出来的几项关键能力。

（Genie 3 官方宣传视频）

一、从一张照片，生成一个可操作的世界

在采访现场，研究员展示了一张在加州拍的风景照片，然后他们让 Genie 生成一个世界。

主持人描述这个过程：

“我们把照片当作提示，然后按 W 键往前走，从那一刻开始，后面的每一帧都是 Genie 即时生成的。”

换句话说，你不是在“看”那张照片，而是进入了照片所代表的空间——你能在里面走动、转身、观察环境，甚至能回头看看刚刚路过的地方。

这就是 Genie 的基础能力之一：照片变世界，世界可探索。

二、提示即加戏：滑雪场、鹿群、T 恤角色都能生成

Genie 的沉浸感不仅在于它能“生成世界”，更在于——你可以不断往里加东西。

不是改一帧画面，而是改世界本身。

Jack 举了一个例子：先让 Genie 生成一个卧室，然后说：'开门，后面是厨房。' 几秒钟后，厨房真的被造出来了，你能直接走进去。

没有预设场景，也没有代码建模。

一句话，系统就理解你的意图，并拼接出一个可探索的新空间。

这不是 CG 动画里的定制镜头——而是一个可以随时修改的、真实存在的空间。

三、有记忆：三分钟前看到的苹果，还能被它“记得住”

这项能力，是整场对话中最令人震惊的部分之一。

研究人员在演示中设置了一个“黑板记忆测试”：你看到一张桌子上放着一个苹果，然后你走出去，过了几十秒，再回来看那个地方。

主持人说：

“苹果还在，它还记得几分钟前你看过它。这不像是缓存文件——而是它真的把你走过的那段世界记在了脑子里。”

Shlomi 解释得很精准：

“Genie 不生成完整的 3D 地图，也不靠固定的规则，它只是自然地学会了：你来过这儿，这儿就该还在。”

对普通人来说，这就像你熟悉一条街——你知道转角有棵树，下一次来还会留意它。

Genie 的表现，也像这样。它不靠脚本，不靠硬逻辑，而是通过训练出的“直觉”，学会了保留一致性、记住你去过哪里。

四、不是观众，而是视角的主人：沉浸感来自控制权

Genie 不只是生成内容，它会把你放在主视角。

Jack 说：

“这个模型是以使用者为中心来构建的，画面会根据你看的方向和位置来决定生成的细节。”

当你向某个区域靠近，那里就会开始变得更细腻、细节更丰富；如果你远离，它就会模糊过去。

这非常符合人类的感知习惯——我们总是对注意力焦点看得最清楚，而忽略边缘的细节。

而 Genie，也能做到这一点：它会把资源和注意力放在你正在看的地方。

Shlomi 总结说得很好：

“Genie 的世界不是‘预制’的，而是你走到哪，它就跟着‘长’到哪。”

第三节｜Genie 3 是 AI 的“练功房”吗？

我们已经看到，Genie 3 不只是生成一段画面，而是能让人进入一个不断生长的世界。

但这场访谈中，最让人兴奋的部分，是 DeepMind 对 Genie 的定位：这不是一个演示工具，而是一座可以训练 AI 的虚拟训练场。

Shlomi 一句话说透了：

“我们的目标是：AI 不用进入现实世界，就能先学会怎么应对真实场景。”

这听上去像一句口号，但从对话内容看，DeepMind 已经在认真推进这件事——用 Genie 来训练 AI 智能体，就像人类用飞行模拟器来训练飞行员一样。

一、模拟稀有场景，不靠真实世界去碰运气

Jack 举了一个例子来说明稀有事件的模拟能力：你可以在山坡上滑雪，然后输入一句提示：‘另一位滑雪者从坡上出现’，Genie 就会让这件事真的发生。

在现实世界中，这样的突发情况难以控制，获取数据代价极高。

但在 Genie 里，只要写一句话，这类罕见事件就能复现几十遍。

这种能力在自动驾驶训练中尤其重要。Shlomi 更进一步地说：你甚至可以用 Genie 训练一个过马路的机器人——让它去观察司机是否在减速，从而决定何时通行。

这一点非常关键，因为人类做这种事，是靠“眼神交流”“身体语言”“踩刹车的细节”来判断，而不是靠一个红绿灯。

Genie 的世界里，AI 可以在安全的空间里反复练习这些难以量化但关键的能力。

二、AI 不再等数据，而是自己制造训练机会

过去，我们训练 AI 需要大量数据——拍摄、标注、清洗……非常花时间。

而 Genie 带来的变化是：AI 可以自己生成世界，再在里面练习。

Shlomi 说：

“如果我们能模拟一个真实可信的世界，那就不用在现实中重复尝试。”

这句话听起来朴素，但背后代表着一次效率革命：

不用去仓库测试机器人搬箱子
不用让无人机实飞几百小时
不用靠真实事故来学会“预判危险”

只要 Genie 能模拟这些场景，AI 就能提前练好判断力和反应速度。

三、从行为到常识：Genie 3 能让 AI 学到“更像人的东西”

不仅是操作训练，Genie 还有可能让 AI 学到“更像人”的技能——比如观察、推理、适应环境。

Jack 提到：如果世界里出现一群鹿跑下山坡，AI 智能体能学会如何避让；如果车辆靠近，它能识别司机是否减速。

这不只是“识图”或“识别动作”，而是开始学会在不确定的环境中做出反应。

Shlomi 补充说：

“我们让 AI 在这个世界里练习，就像人类在现实中成长一样。”

也就是说，AI 终于有可能像人一样在环境中学会行为，而不是靠我们手动告诉它该做什么。

四、告别漫长等待：这是一场关于效率的革命

Shlomi 曾说过一个例子：开发一种新药，需要几个月才能试完一轮；但如果能在模拟中测试，就能把时间压缩到几分钟。

同样的逻辑也适用于 AI。

在 Genie 构建的世界里：

一个家庭机器人可以练习整理房间，不怕打碎花瓶
一个工业机器人可以优化搬运路径，不用撞到货架才学会绕路
一个助理型 AI 可以在虚拟办公室学会和人类协作，不必先踩坑

这不是降本工具，而是学习革命。

真正把"做中学"从物理世界搬到了数字空间。与传统的数据训练不同，这里让 AI 能在世界里真正'经历事情'。

第四节｜Genie 3，能成为“下一个平台”？

Genie 3，不只是一个能出画面的视频模型。

Shlomi 一句话点明了它的野心：

“这可能不是又一个视频模型，而是下一个世界模型平台。”

什么意思？

你可以把它理解为一套“沉浸式操作系统”的雏形形——不靠鼠标键盘，不需要点选拖拽，只要一句话，它就能在你眼前搭建出一个可探索、可交互、可记忆的虚拟空间。

Jack 这样形容：

“就像导演一样，你给一句话，它就能给你一整个动态世界——有天气、有人物、有反应。”

第一层视角：平台底座——沉浸式交互引擎

Genie 最大的突破，不在于画质，而在于实时响应的世界规则：

你走近一棵树，它会挡住光；
你绕过墙壁，再回头，人物还在原来的位置；
你转身跑开，系统也会记得刚才你看到的东西。

这不是做一段视频，而是生成一个真实的世界。 Shlomi 则说：“我们建的是一个可交互、可追踪的空间模型。”

这套"世界级输入法"未来能嵌进任何硬件——AR 眼镜、物联网屏幕、语音助手……

它不再是单独的视频工具，而是底层平台，可以让各种设备都具备这种能力。

第二层视角：应用场景——“秒建世界”的新基础设施

当生成技术从静态内容跨越到沉浸式交互，应用可能性瞬间被释放：

沉浸教育：孩子不再看视频学习行星知识，而是“进入太阳系”，亲身体验引力；
交互影视：一段剧情，不是写死，而是观众对话决定走向；
游戏生成：自然语言生成关卡、设定角色、调整难度，全过程可编辑。

DeepMind 不是为了做视频，而是要为各种应用建设新基础。

这意味着什么？创建虚拟世界将变得像搭积木一样简单。

第三层视角：创作者生态——从剪辑师变成“提示词导演”

这不是传统内容制作流程的升级，而是整个创作范式的重构。

过去你要用 Unity 或 Blender （专业3D建模和游戏开发软件）花几周做场景，现在你只需要一句提示词。

而这，正是新一代创作者机会所在：

不会建模？会写句子就能创造世界；
不懂编程？只要能表达意图，就能控制角色行动；
不想做美术？Genie 帮你生成场景、光影、素材全包。

Shlomi 明确说过：“模型越强，用户输入越简单，它创造的世界越复杂。”

这句话的潜台词是：未来不是你去适应平台，而是平台来适应你。而你要做的，是学会“描述一个世界”——这正是“提示词设计师”的新职业起点。

平台进化路线：从模型到生态入口

如果把 GPT 看作语言平台的基座，那 Genie 就是沉浸平台的开端。

这背后，是一个清晰可见的进化路径：

对标 GPT：输入变自然、输出更复杂，从助手到代理；
对标 YouTube：创作者低门槛涌入、构建内容社区；
对标 Unity：为 AR/VR/Web 提供世界创建工具，连接各类开发者。

一旦这些路径开始融合，Genie 就不再是单一模型，而是新平台的前身——承载多智能体、记忆模块、创作工具、运营框架等全栈能力。

未来这些模型会发展出自主协调能力：不是我们训练它怎么做，而是它自己学会如何组织任务。

一句话总结：

Genie 3 正在打开一个从“内容播放”到“世界生成”的新入口。

而谁能率先掌握这个入口，将其发展为下一代操作平台、生态中枢，就有机会在沉浸市场中占据制高点。

结语｜不是视频更炫，而是平台变了

Genie 3 不是在跟传统视频模型比拼清晰度，而是在打开一个全新的问题：

AI 能不能直接创造一个“世界”？

如果答案是肯定的，那今天我们看到的，还只是开端。

这不仅意味着更自然的交互方式，更意味着：

应用边界在消失：教育、游戏、机器人训练都成为可能；
创作门槛在消失：不会建模、不会剪辑，也能创造；
操作方式在消失：点击、拖动、代码，全都被一句话替代。

这已经不再是一个简单的视频制作工具，而是一个"虚拟世界工厂"——

你可以在里面真正生活、互动、探索。

下一个万亿级机会，可能不是谁的画面更好看，

而是谁能率先控制这种"造世界"的能力。

本文由 AI 深度研究院出品，内容翻译编辑自Google DeepMind Genie 3技术访谈。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=ekgvWeHidJs&t=2223s&ab_channel=MachineLearningStreetTalk

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

https://x.com/GoogleDeepMind/status/1952732150928724043

https://techcrunch.com/2025/08/05/deepmind-thinks-genie-3-world-model-presents-stepping-stone-towards-agi/

https://www.transparencymarketresearch.com/extended-reality-xr-market.html

来源：官方媒体/网络新闻，

排版：Atlas

编辑：深思

主编：图灵

独家对话｜10 秒造 3D！DeepMind Genie 3 引爆“沉浸式现实”万亿市场

热搜

热门跟贴

热搜

热门跟贴

相关推荐

DeepSeek V4逼近，美国慌了！被曝绕过英伟达优先国内，绝密参数已泄露

DeepSeek打破惯例，释放重磅信号！

马斯克一语定调：AI算法，正式开启人类文明新纪元

人形机器人IPO扎堆，手机大厂跨界“造人”

下一代显示技术之争！三星又在布局一种“新方案”

10倍潜力，最真正受益，却完全被忽视的AI真正龙头，药明生物都抢着入股了！

DeepSeek爆火一周年的寂静

上海一家芯片研发商获得3亿元融资，主攻端侧AI赛道！

千亿砸 AI！ 三大厂的不同死磕方式

男生展示三维立体模型，看出纵深感后，就再也回不去了

“未来高科技的机器人保镖，真的安全吗？”

火爆海外的中国科技，老外大为震撼中国科技正在定义未来！

默茨访华第二天来看机器人：跳舞拳击样样精通，默茨看得津津有味

美欧拒绝中国曾在联合国提出的限制机器人军事化！唐湘龙与邱世卿

太超前了！网友街头偶遇遛娃“机器人”，“这机器人怎么看着人里人气的”

机器人进汽车厂，给波士顿动力，装上谷歌最强大脑

撒贝宁模仿机器人，纯天赋型选手，一模一样太像了！

还会自己修车呢

万万没有想到，机器人是这样下台的，像极了刚会走路的小孩

千问AI眼镜来了！阿里AI开始“品牌收敛”？

千亿砸 AI！三大厂的不同死磕方式