AI 热点一个接一个,大家光顾着看热闹,真正的王炸反而容易被错过。

就在今天凌晨,Google DeepMind 推出了打磨已久的新项目:Project Genie。这不单是一个好玩的 AI 工具,更是 Google 通往通用人工智能(AGI)的重要一步:

一个真正的「世界模型」实验原型。

打开网易新闻 查看精彩图片

目前,Project Genie 已经向美国地区 18 岁及以上的 Google AI Ultra 订阅用户开放使用。

首先我们要搞清楚一个概念,Project Genie 生成的本质上是一个实时渲染的交互环境。它的技术底座由三部分组成:负责图像控制的 Nano Banana Pro、负责理解语言指令的 Gemini 模型,以及负责物理反馈的 Genie 3。

前两者我们都比较熟悉,无需赘述,

打开网易新闻 查看精彩图片

简单来说,它的机制和人类做梦的原理很像。

我们在做梦时,大脑会构建一个包含视听触觉的虚拟世界。虽然梦里的逻辑有时会跳跃,但沉浸感很强。Genie 其实就是让计算机学会「做梦」,并且允许用户进入这个梦境进行互动。

此外,与 ChatGPT 这类基于文本统计规律的模型不同,Genie 3 本质上是一个「物理世界模型」。它虽然没学过物理公式,但通过观看几百万次物体运动的视频,自己「学会」了重力、惯性这些物理规则。

体验 Project Genie 的方式也非常简单。

打开网易新闻 查看精彩图片

Google AI 产品宣传委员 Josh Woodward 就演示了全过程:他先把自己的照片转换成复古游戏风格的角色,然后上传到 Genie,输入「沙漠场景」和角色描述。

点击生成后,他就能以牛仔的身份在沙漠里自由探索了。

打开网易新闻 查看精彩图片

为了让控制更精准,用户还可以在进入前预览环境,并调整视角。点击开始后,当你按下键盘方向键(WASD),系统会实时预测并生成前方的路径和场景。

打开网易新闻 查看精彩图片

整个过程就跟玩游戏一样,有所不同的是,你不仅是观众,更是这个世界的导演。

不过,作为一个还在开发中的实验模型,Project Genie 也有明显短板,比如每次只能玩 60 秒。在接受的采访播客中,Google 开发团队解释说,时间太长会导致画面逻辑崩坏,产生幻觉,而且实时生成的计算成本极高。

打开网易新闻 查看精彩图片

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=1s

因此,为了平衡体验和成本,目前的单次探索被限制在 1 分钟内。

当然,如果你玩腻了沙漠,可以随时修改指令,把场景变成赛博城市,而角色的动作逻辑依然会保留。前阵子马斯克在社交平台上表示,AI 有可能让普通人几分钟内生成《GTA6》。

打开网易新闻 查看精彩图片

VentureTwins 也认为,2026 年将是世界模型的爆发之年。Project Genie 这种「实时视频生成」的技术路径,未来可能会和基于代码的传统游戏引擎分庭抗礼。

有了 Project Genie,这些判断似乎听起来也不那么遥远了。

打开网易新闻 查看精彩图片

图片来自 @AngryTomtweets https://x.com/AngryTomtweets/status/2016986111927865430

在驾驶直升机时,左下角的地图还会实时更新。

打开网易新闻 查看精彩图片

图片来自 @fofrAI https://x.com/fofrAI/status/2016936855607136506

网友 @yrzhe_top 试玩后则反馈称,他在外星球开车「兜风」时发现,没有宣传视频那么流畅,有些延迟,自定义提示也没生效,只能用官方预设内容。

打开网易新闻 查看精彩图片

图片来自@yrzhe_top

Google 开发团队也承认,目前 Genie 3 处于早期阶段,物理规律模拟得还不够准确,穿模或轨迹怪异的情况常有发生。不过 @yrzhe_top 也表示,虽然它只做到了承诺的七成,但这七成已经足够让人惊艳。

打开网易新闻 查看精彩图片

图片来自 @jen_w1n https://x.com/jen\_w1n/status/2016929094517088416

当然,如果只是为了做一个高配版的《我的世界》,Google 显然不需要动用那么多资源。Project Genie 的真正野心在于解决 AI 通往 AGI 路上的最大拦路虎,即数据枯竭与具身智能瓶颈。

是的,互联网上的高质量文本数据快被吃光了,且机器人无法通过阅读百科全书学会洗碗,它需要肌肉记忆和物理反馈。

然而,现实中获取机器人失败数据的成本极高,但 Genie 可以作为一个无限的合成数据生成器,模拟出十亿个不同的厨房、仓库或外星地表,让机器人在里面积累「肌肉记忆」,学会了再应用到现实中。

类似的还有蚂蚁灵波今天开源的 LingBot-VA 模型,它能在生成画面的同时推演动作序列,让机器人像人一样「边想边做」。制作早餐、拾取螺丝、拆快递、叠衣物、叠裤子的能力都有所长进。

打开网易新闻 查看精彩图片

此外,Google 开发团队在访谈中还畅想了更具人文关怀的应用场景,例如心理治疗与教育。

家长可以利用 Genie 生成一个「满是蜘蛛的房间」,在一个绝对安全且可控的虚拟环境下帮助孩子进行脱敏练习。或者在历史课上,直接生成一个 18 世纪的巴黎街道让学生亲历其境。

尽管现在的 Project Genie 还有画质粗糙、时长短、延迟高以及无法多人联机等问题,但它确实推开了那扇通往物理现实模拟的大门。

回头看 2024 年那句「世界不存在了」,最后让它成真的,估计不是 Sora,而是 Genie。

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

打开网易新闻 查看精彩图片