新智元报道
编辑:Aeneas KingHZ
【新智元导读】谷歌被中国世界模型逼急了?就在刚刚,Genie 3突然公测,一句话生成互动宇宙,网页直装世界模型。网友们纷纷惊呼:这次,真的进黑客帝国了!
中国开源力量,再一次倒逼硅谷!
就在昨天,蚂蚁灵波宣布上线世界模型LingBot-World,一发布即成SOTA。
外国网友纷纷惊叹之际,谷歌似乎也感受到了威胁。
就在当天凌晨,谷歌正式宣布:Genie 3开启公测!
这可真是太震撼了,要知道,去年8月谷歌预告了Genie 3之后,一直没有什么后续动作。
被中国AI力量这么一逼,谷歌版「黑客帝国」终于来了。只要一句话,人人都能实时创造互动宇宙了。
更厉害的是,Genie 3还联手了谷歌Nano Banana Pro,世界模型,第一次被装进了网页中!
现在,X上已经充满了网友的疯狂实测。人们纷纷惊呼:Genie 3生成太炸裂了,这就是未来!
四个月后
Genie 3终于来了
去年8月,谷歌预告了Genie 3的消息,这款通用世界模型,能生成多样化的交互环境。即使仍在早期阶段,特邀测试者就创造了各种令人惊叹的体验。
而今天,Project Genie正式向美国GoogleAIUltra订阅用户(18 岁以上)开放试用了!
在这里,你不再是「看」一个世界,而是创造它、进入它、探索它。
世界模型的本质,就是让AI理解和预测世界如何运转。
过去,AI很擅长在封闭规则里表现出色,比如国际象棋、围棋,但要迈向真正的AGI,就要面对这样一个问题——现实世界,没有剧本。
这,正是Genie 3的使命。
网传的Genie 3系统提示词
它不再是静态的3D场景,而是一个会随你行动实时生成的世界:你往前走,路就出现;你改变方式,世界随之调整。
从机器人训练、动画制作、小说创作,到探索真实地点或历史场景——Genie 3想做的,就是“模拟一切”。
而 Project Genie,就是这个能力的第一扇入口。
Genie 3+Nano Banana Pro+Gemini,全面集成
简单来说,它是一个由Genie 3、Nano Banana Pro和Gemini驱动的网页应用,整个体验围绕三件事展开——
世界草图绘制,世界探索,和世界二创。
首先,你需要先用文字和视觉提示词设计你的世界和角色。
然后,Nano Banana Pro会生成一个可调整的图像预览,这就是世界草图绘制 (World sketching)。
在这个功能中,你可以预览世界最终呈现的效果,还能在进入游戏前修改图像。你可以定义角色的视角,比如第一人称或第三人称。
而Genie 3世界模型会在你移动时实时生成环境,这就是世界探索 (World exploration)。
最后,在画廊中混搭现有世界,或探索全新世界——世界二创 (World remixing)。
比如,如果你喜欢这个草原世界,但想用另一个角色探索它,就可以直接用自然语言修改草图。
而且,你还可以修改你的角色和环境,创造任意数量的新世界。
要知道,以前的虚拟世界中,还是第一人称玩家的POV为主,如果能突破到 多机位、多视角、直接生成场景,那真的能随时随地躺着做导演了!
网友实测:赛博「凡人修仙传」
a16z的合伙人Justine Moore提前获得了Project Genie的访问权限,测试了数十个提示词,表示与自己试过的其他世界模型绝对不一样——
你可以通过文字或照片生成一个场景,然后设计一个角色深入其中、自由探索。
在物理、记忆和控制上,Project Genie真实现了「言出法随」新的境界:一语一世界,玄幻小说的小世界就这样诞生了!
Justine Moore测试了两个简单却很典型的例子,可以看出AI对物理的理解真的有所领悟:
第一个场景中,她尝试让角色穿过汽车——但实际发生了碰撞,因为游戏不允许角色穿透实体物体。
第二个场景中,系统不允许角色穿过一扇关闭的门。
模型的记忆虽然并不完美,但在场景进行过程中,当你离开再返回时,模型会记住之前的内容。
第一个片段中,Justine Moore不断回到那位焦头烂额的Dunkin' Donuts员工身上;第二个片段的主角则是那只狗(还带有一些沙子和水的物理效果!)。
最厉害的就是控制——就像电脑游戏一样,你可以用WASD在场景中移动,用四个方向键调整相机角度。
Project Genie不仅对你这个「世界之主」言听计从,你还能从新角度观看同一场景,让你身临其境。
这位投资人体验之后,当即预言:2026将是世界模型的重要一年。
除了过去游戏渲染的虚拟世界,已经出现了谷歌Project Genie和李飞飞的3D世界模型两条不同的世界模型路径。
Genie能创建一个可探索长达一分钟的实时世界,拥有相当不错(但并非完美)的记忆与一致性,以及广阔的探索空间。
Marble会生成一个明确的3D世界,你可以随意在里面待多久(还能随时回来,世界始终保持一致)。
这两条路径都能生成永久持续存在的世界,都很炫酷,适用于不同的使用场景。根据需求,你可按需选择。
沃顿商学院教授Ethan Mollick,提前体验了Genie3的世界建模。
首先,他「魂穿」到一位头戴鸭子的水獭航空公司飞行员,走过一座受罗斯科启发的机场;还有测试了一只穿翼装的水獭飞越哥特式尖塔林立的城市。
另外,他还复原了《哈姆雷特》的世界,但角度刁钻。
教授还用Genie 3生成了一个「递归世界」:战士「头上长了显示屏」,实时展示另一个《毁灭战士》:
《毁灭战士》,但墙壁完全由屏幕构成,屏幕上也运行着《毁灭战士》,里面还有那个《毁灭战士》的陆战队员,而他的头又是一块正在运行《毁灭战士》的屏幕。
这些视频的动作和物理效果看起来,连贯得出人意料。
但他觉得「在建模和物理上,这是一次巨大的飞跃,但还有问题」。
怪不得他被网友评论在「凡尔赛」。
谷歌DeepMind的研究者,用Genie 3模拟了一只会飞的猫。
注意,驾驶直升机绕圈飞行时,地图也是随之变化的,效果令人惊叹。
如果你使用一张显示轨道的起始图像,Genie就可以沿着轨道一直行驶下去,无需任何进一步的交互!
更令人惊叹的是,就像游戏一样,Genie为你创造一个完整的世界,无限重生那种。
万万没想到,如果掉入深渊,Genie竟然会直接把你重生到一个新地方!
谷歌CEO劈柴试玩之后,也直呼感觉太棒了!
游戏末日来了?
毫无疑问,Genie 3完全可以用于游戏,网友 GrandDiTwo制作了人生第一个AI视频游戏,发问:「游戏产业末日到了吗?」
虽然这次的Genie 3是「GPT-2」级别的发布,并不完美,但它潜力无穷。
网友都开始畅想,未来电子游戏可能出现「氛围设计」,就像GPT最终引发软件领域的氛围编程。
苦等GTA 6十二年的玩家看到下面这个画面,直接虎躯一震。
正式版GTA 6还没来,AI版的就来了!
玩家彻底疯狂了:不用等R星交付成品了,AI让你提前走进这个世界,Genie 3太棒了!
有人仅仅用《塞尔达传说:旷野之息》的素材,就创建了这个模拟3D游戏世界。
画面实在震撼:开阔的草原,层次分明的地形,远景与光影的变化,都一股浓浓的「塞尔达味」。
而这一切,都是由Genie 3自动推演生成!
具体生成步骤如下。
任天堂律师们be like——
在线创造你自己的《刺客信条》,穿越回古罗马,去经历凯撒遇刺事件,就问你刺激不刺激?
《堡垒之夜》的画面,Genie直接生成。
这是真正的《最后生还者》游戏,还是Genie 3的实时重现?根本分不清。
Genie 3,带你走入《夜游者》的世界,进入这个深夜的街角餐馆。
仅凭一个提示,Genie 3就生成了一个可玩的地铁跑酷世界。游戏行业的未来,将会非常疯狂!
最后,令人期待的是,在2026年,或许Genie 4就要来了。
网友纷纷艾特Hassabis:赶紧给我们上菜啊,等不及了!
参考资料:
https://x.com/GoogleDeepMind/status/2016919756440240479
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/
https://x.com/venturetwins/status/2016919922727850333
热门跟贴