全文 4,000字 | 阅读约 13 分钟

 独家对话|10 秒造 3D!DeepMind Genie 3 引爆“沉浸式现实”万亿市场
打开网易新闻 查看更多视频
独家对话|10 秒造 3D!DeepMind Genie 3 引爆“沉浸式现实”万亿市场

(DeepMind独家对话:Genie 3背后的万亿级市场机会)

10秒,足够改变一切。

只需一行提示词,Genie 3 就能在你眼前铺开一个 720p、24fps 的 3D 世界。 你可以操控、穿梭、改天换地。 甚至几分钟前转身丢下的苹果,它也能准确记住。

这不是 demo,不是预渲染。

你看到的,是一个真的能“进去”的世界。

这背后不是魔术,而是 DeepMind 最新一次发布的成果。

在 8月 5 日《Machine Learning Street Talk》的独家专访中,DeepMind 研究总监 Shlomi Fuchter 首度披露:

Google DeepMind 刚刚发布的 Genie 3, 是首个实时交互的通用世界模型。 从此,生成的不再是视频,而是一整个“可玩宇宙”。

这背后的意义远超技术演示。 它代表了一种新型 AI 能力的觉醒:

  • 不需要明确的 3D 编程、物理规则、建模语言

  • 控制器输入直接驱动神经网络生成世界

  • 系统自己“记住”“理解”“构造”“重现”

而马斯克的评价更为直接:

但 Genie 的意义,远不止娱乐。

这是一个可以训练机器人、构建虚拟仓库、模拟社交互动,甚至构建下一代“数字孪生地球”的全新起点——当内容生成速度与沉浸交互深度相结合,就诞生了新的平台级入口。

市场也已给出信号。

据 Transparency Market Research 预测,沉浸式现实(XR)将在 2030 年突破 1.1 万亿美元市场规模,年复合增长率超 40%。而 Genie 3 的出现,正击中这个万亿市场最核心的痛点——内容创作效率低下。

这不仅是一项技术革命,更可能是一场平台级迁徙的开始。

第一节|Genie 3:开启“可走进去”的 AI 世界

你可能会以为,这只是一个更逼真的视频生成工具。

但在 DeepMind 的两位核心研究人员眼中,Genie 3 和 Sora、Runway 、Kling 这些视频生成工具,甚至和 Unreal 这类传统技术,根本不在一个层次上。

Shlomi 开场就把 Genie 3 的定位讲得很清楚:

“我们不是生成一段视频,也不是复制一个场景,而是在创造一个可以‘动’的世界。”

第一个不同:从被动观看到主动体验

当前的视频生成模型(如 VEO 或 Sora),做得再好,也只能把提示词变成一段可以看的画面。 你无法控制、无法互动,它只是一个“提前写好的片段”。

而 Genie 3 不同。

它不是“看完就结束”,而是“你能进去玩”, 还能和场景互动、自由创造。

主持人用更直接的方式总结:

“这就像你走进了提示词写出的那个世界,每一步都是 AI 实时搭出来的。”

第二个不同:无需编程,智能涌现

Genie 3 不靠明确的物理引擎,也不需要手动设定灯光、材质、碰撞规则。

不像游戏引擎那样需要一个个模块去搭建,它只是接收一句提示词或控制器的输入,其余一切——包括世界长什么样、东西怎么动、事件怎么触发,全部由神经网络自动生成。

更令人惊讶的是:它还展现出一种"记住世界"的能力。

你曾看过的地方,再回来时,细节依然还在——不是因为程序预先设定好,而是它似乎“自然地知道”你去过那里。

Shlomi 解释说:

“它没有做出什么显式的 3D 构图,也没有把每个物体写成规则,它只是学会了:如果你去过某地,再回来,那里应该还在。”

第三个不同:实时生成,灵活可控

这不是静态的背景,而是一个“活的世界”。

你输入一句话:“一个穿 Genie T 恤的滑雪者出现”,模型就会让这个角色从远处滑下来。 你再说:“一只鹿跑过”,它就真的在画面中跑过一只鹿。

Shlomi 说:

“这就是可提示的世界事件(prompted world events)。”

你不用重新制作,不用修改任何设置,只要说一句话,整个世界就会响应你的想法。

小结:Genie 3 做到三件老模型做不到的事

看到 Genie 3 的表现,英伟达高级 AI 研究科学家 Jim Fan 预测:

“UE5 (虚幻引擎5,知名游戏开发软件)那些复杂的技术,终将被一团 AI 神经网络搞定。”

换言之,AI 将直接学会创造世界,不再需要复杂的开发工具。

第二节|Genie 3 的沉浸级能力,有多超前?

如果说传统视频模型让你'看世界',那 Genie 3 则让你'进入世界'——真正的沉浸式交互体验。

DeepMind 研究科学家 Jack Parker Holder 说:

视频生成模型看起来像电影,Genie 更像是你能进到里面的游戏。

但这不是技术升级,而是体验革命:你能真正参与其中、影响场景发展、感受到 AI 的记忆能力—— AI 不再只是生成内容,而是成为你的世界创造伙伴。

以下,是 Genie 3 展示出来的几项关键能力。

 独家对话|10 秒造 3D!DeepMind Genie 3 引爆“沉浸式现实”万亿市场
打开网易新闻 查看更多视频
独家对话|10 秒造 3D!DeepMind Genie 3 引爆“沉浸式现实”万亿市场

(Genie 3 官方宣传视频)

一、从一张照片,生成一个可操作的世界

在采访现场,研究员展示了一张在加州拍的风景照片,然后他们让 Genie 生成一个世界。

主持人描述这个过程:

“我们把照片当作提示,然后按 W 键往前走,从那一刻开始,后面的每一帧都是 Genie 即时生成的。”

换句话说,你不是在“看”那张照片,而是进入了照片所代表的空间——你能在里面走动、转身、观察环境,甚至能回头看看刚刚路过的地方。

这就是 Genie 的基础能力之一:照片变世界,世界可探索

二、提示即加戏:滑雪场、鹿群、T 恤角色都能生成

Genie 的沉浸感不仅在于它能“生成世界”,更在于——你可以不断往里加东西

不是改一帧画面,而是改世界本身。

Jack 举了一个例子:先让 Genie 生成一个卧室,然后说:'开门,后面是厨房。' 几秒钟后,厨房真的被造出来了,你能直接走进去。

没有预设场景,也没有代码建模。

一句话,系统就理解你的意图,并拼接出一个可探索的新空间。

这不是 CG 动画里的定制镜头——而是一个可以随时修改的、真实存在的空间

三、有记忆:三分钟前看到的苹果,还能被它“记得住”

这项能力,是整场对话中最令人震惊的部分之一。

研究人员在演示中设置了一个“黑板记忆测试”: 你看到一张桌子上放着一个苹果,然后你走出去,过了几十秒,再回来看那个地方。

主持人说:

“苹果还在,它还记得几分钟前你看过它。这不像是缓存文件——而是它真的把你走过的那段世界记在了脑子里。”

Shlomi 解释得很精准:

“Genie 不生成完整的 3D 地图,也不靠固定的规则,它只是自然地学会了:你来过这儿,这儿就该还在。”

对普通人来说,这就像你熟悉一条街——你知道转角有棵树,下一次来还会留意它。

Genie 的表现,也像这样。它不靠脚本,不靠硬逻辑,而是通过训练出的“直觉”,学会了保留一致性、记住你去过哪里。

四、不是观众,而是视角的主人:沉浸感来自控制权

Genie 不只是生成内容,它会把你放在主视角。

Jack 说:

“这个模型是以使用者为中心来构建的,画面会根据你看的方向和位置来决定生成的细节。”

当你向某个区域靠近,那里就会开始变得更细腻、细节更丰富;如果你远离,它就会模糊过去。

这非常符合人类的感知习惯——我们总是对注意力焦点看得最清楚,而忽略边缘的细节。

而 Genie,也能做到这一点:它会把资源和注意力放在你正在看的地方。

Shlomi 总结说得很好:

“Genie 的世界不是‘预制’的,而是你走到哪,它就跟着‘长’到哪。”

第三节|Genie 3 是 AI 的“练功房”吗?

我们已经看到,Genie 3 不只是生成一段画面,而是能让人进入一个不断生长的世界。

但这场访谈中,最让人兴奋的部分,是 DeepMind 对 Genie 的定位:这不是一个演示工具,而是一座可以训练 AI 的虚拟训练场。

Shlomi 一句话说透了:

“我们的目标是:AI 不用进入现实世界,就能先学会怎么应对真实场景。”

这听上去像一句口号,但从对话内容看,DeepMind 已经在认真推进这件事——用 Genie 来训练 AI 智能体,就像人类用飞行模拟器来训练飞行员一样。

一、模拟稀有场景,不靠真实世界去碰运气

Jack 举了一个例子来说明稀有事件的模拟能力:你可以在山坡上滑雪,然后输入一句提示:‘另一位滑雪者从坡上出现’,Genie 就会让这件事真的发生。

在现实世界中,这样的突发情况难以控制,获取数据代价极高。

但在 Genie 里,只要写一句话,这类罕见事件就能复现几十遍。

这种能力在自动驾驶训练中尤其重要。Shlomi 更进一步地说:你甚至可以用 Genie 训练一个过马路的机器人——让它去观察司机是否在减速,从而决定何时通行。

这一点非常关键,因为人类做这种事,是靠“眼神交流”“身体语言”“踩刹车的细节”来判断,而不是靠一个红绿灯。

Genie 的世界里,AI 可以在安全的空间里反复练习这些难以量化但关键的能力。

二、AI 不再等数据,而是自己制造训练机会

过去,我们训练 AI 需要大量数据——拍摄、标注、清洗……非常花时间。

而 Genie 带来的变化是:AI 可以自己生成世界,再在里面练习。

Shlomi 说:

“如果我们能模拟一个真实可信的世界,那就不用在现实中重复尝试。”

这句话听起来朴素,但背后代表着一次效率革命:

  • 不用去仓库测试机器人搬箱子

  • 不用让无人机实飞几百小时

  • 不用靠真实事故来学会“预判危险”

只要 Genie 能模拟这些场景,AI 就能提前练好判断力和反应速度。

三、从行为到常识:Genie 3 能让 AI 学到“更像人的东西”

不仅是操作训练,Genie 还有可能让 AI 学到“更像人”的技能——比如观察、推理、适应环境。

Jack 提到:如果世界里出现一群鹿跑下山坡,AI 智能体能学会如何避让;如果车辆靠近,它能识别司机是否减速。

这不只是“识图”或“识别动作”,而是开始学会在不确定的环境中做出反应。

Shlomi 补充说:

“我们让 AI 在这个世界里练习,就像人类在现实中成长一样。”

也就是说,AI 终于有可能像人一样在环境中学会行为,而不是靠我们手动告诉它该做什么。

四、告别漫长等待:这是一场关于效率的革命

Shlomi 曾说过一个例子:开发一种新药,需要几个月才能试完一轮;但如果能在模拟中测试,就能把时间压缩到几分钟。

同样的逻辑也适用于 AI。

在 Genie 构建的世界里:

  • 一个家庭机器人可以练习整理房间,不怕打碎花瓶

  • 一个工业机器人可以优化搬运路径,不用撞到货架才学会绕路

  • 一个助理型 AI 可以在虚拟办公室学会和人类协作,不必先踩坑

这不是降本工具,而是学习革命。

真正把"做中学"从物理世界搬到了数字空间。与传统的数据训练不同,这里让 AI 能在世界里真正'经历事情'。

第四节|Genie 3,能成为“下一个平台”?

Genie 3,不只是一个能出画面的视频模型。

Shlomi 一句话点明了它的野心:

“这可能不是又一个视频模型,而是下一个世界模型平台。”

什么意思?

你可以把它理解为一套“沉浸式操作系统”的雏形形——不靠鼠标键盘,不需要点选拖拽,只要一句话,它就能在你眼前搭建出一个可探索、可交互、可记忆的虚拟空间。

Jack 这样形容:

“就像导演一样,你给一句话,它就能给你一整个动态世界——有天气、有人物、有反应。”

第一层视角:平台底座——沉浸式交互引擎

Genie 最大的突破,不在于画质,而在于实时响应的世界规则

  • 你走近一棵树,它会挡住光;

  • 你绕过墙壁,再回头,人物还在原来的位置;

  • 你转身跑开,系统也会记得刚才你看到的东西。

这不是做一段视频,而是生成一个真实的世界。 Shlomi 则说:“我们建的是一个可交互、可追踪的空间模型。”

这套"世界级输入法"未来能嵌进任何硬件——AR 眼镜、物联网屏幕、语音助手……

它不再是单独的视频工具,而是底层平台,可以让各种设备都具备这种能力。

第二层视角:应用场景——“秒建世界”的新基础设施

当生成技术从静态内容跨越到沉浸式交互,应用可能性瞬间被释放:

  • 沉浸教育:孩子不再看视频学习行星知识,而是“进入太阳系”,亲身体验引力;

  • 交互影视:一段剧情,不是写死,而是观众对话决定走向;

  • 游戏生成:自然语言生成关卡、设定角色、调整难度,全过程可编辑。

DeepMind 不是为了做视频,而是要为各种应用建设新基础。

这意味着什么?创建虚拟世界将变得像搭积木一样简单。

第三层视角:创作者生态——从剪辑师变成“提示词导演”

这不是传统内容制作流程的升级,而是整个创作范式的重构。

过去你要用 Unity 或 Blender (专业3D建模和游戏开发软件 ) 花几周做场景,现在你只需要一句提示词。

而这,正是新一代创作者机会所在:

  • 不会建模?会写句子就能创造世界;

  • 不懂编程?只要能表达意图,就能控制角色行动;

  • 不想做美术?Genie 帮你生成场景、光影、素材全包。

Shlomi 明确说过:“模型越强,用户输入越简单,它创造的世界越复杂。”

这句话的潜台词是: 未来不是你去适应平台,而是平台来适应你。 而你要做的,是学会“描述一个世界”——这正是“提示词设计师”的新职业起点。

平台进化路线:从模型到生态入口

如果把 GPT 看作语言平台的基座,那 Genie 就是沉浸平台的开端。

这背后,是一个清晰可见的进化路径:

  • 对标 GPT:输入变自然、输出更复杂,从助手到代理;

  • 对标 YouTube:创作者低门槛涌入、构建内容社区;

  • 对标 Unity:为 AR/VR/Web 提供世界创建工具,连接各类开发者。

一旦这些路径开始融合,Genie 就不再是单一模型,而是新平台的前身——承载多智能体、记忆模块、创作工具、运营框架等全栈能力。

未来这些模型会发展出自主协调能力:不是我们训练它怎么做,而是它自己学会如何组织任务。

一句话总结:

Genie 3 正在打开一个从“内容播放”到“世界生成”的新入口。

而谁能率先掌握这个入口,将其发展为下一代操作平台、生态中枢,就有机会在沉浸市场中占据制高点。

结语|不是视频更炫,而是平台变了

Genie 3 不是在跟传统视频模型比拼清晰度,而是在打开一个全新的问题:

AI 能不能直接创造一个“世界”?

如果答案是肯定的,那今天我们看到的,还只是开端。

这不仅意味着更自然的交互方式,更意味着:

  • 应用边界在消失:教育、游戏、机器人训练都成为可能;

  • 创作门槛在消失:不会建模、不会剪辑,也能创造;

  • 操作方式在消失:点击、拖动、代码,全都被一句话替代。

这已经不再是一个简单的视频制作工具, 而是一个"虚拟世界工厂"——

你可以在里面真正生活、互动、探索。

下一个万亿级机会, 可能不是谁的画面更好看,

而是谁能率先控制这种"造世界"的能力。

本文由 AI 深度研究院出品,内容翻译编辑自Google DeepMind Genie 3技术访谈。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=ekgvWeHidJs&t=2223s&ab_channel=MachineLearningStreetTalk

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

https://x.com/GoogleDeepMind/status/1952732150928724043

https://techcrunch.com/2025/08/05/deepmind-thinks-genie-3-world-model-presents-stepping-stone-towards-agi/

https://www.transparencymarketresearch.com/extended-reality-xr-market.html

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵