5月20日凌晨,谷歌2026年I/O发布会上,CEO Sundar Pichai公布了谷歌在世界模型上的最新进展——Gemini Omni和Project Genie。

打开网易新闻 查看精彩图片

Gemini Omni被谷歌定义为一款能够实现“从任意输入到任意输出”的新一代多模态世界模型,它不再局限于生成逼真的视觉画面,而是让AI真正具备了理解重力、流体动力学、动能等基础物理定律的能力。开发者只需在一张白纸上手绘一个圆圈并搭配文字描述,Gemini Omni就能直接输出一段符合物理碰撞规则的特效视频。用户可以通过自然语言指令(如“把玻璃建筑替换为肥皂泡”)对视频进行对话式编辑,生成的肥皂泡会展现出真实的形变与交互效果。

打开网易新闻 查看精彩图片

这种对空间关系、时序协调以及物体运动逻辑的精准把控,解决了早期AI视频中常见的物体交互失真问题。首款模型Gemini Omni Flash已正式上线,并集成到Gemini应用、Google Flow和YouTube Shorts等平台。

除了基础物理规则的模拟,谷歌还展示了通用世界模型Project Genie与谷歌街景(Street View)服务的深度结合。‌

Project Genie 是谷歌研发的通用世界模型‌,核心能力是根据文本或图像输入生成具备物理规则、可交互的动态 3D 环境,不仅限于静态图像。

打开网易新闻 查看精彩图片

用户可在地图上选择美国境内任意地点(如金门大桥),指定风格(如“石器时代”“海洋世界”)并描述角色(如“科幻机械师”),系统即以真实街景为基底生成融合想象的互动 3D 场景。

这项技术为AI智能体或机器人提供了一个逼真的训练场,使其能在复杂的真实世界映射中学习导航、移动和互动,大幅降低了在现实世界中试错的成本与风险。

不过,该功能目前仍为‌实验性原型‌,仅支持美国地区,需通过街景图钉入口访问,暂未开放全球或 API 接入。

谷歌这两大世界模型产品的发布,倒逼国内以文本、图像为主的大模型企业要在AIGC、具身智能或数字孪生领域需突破单一模态局限,向统一多模态推理与世界建模演进,否则会存在代差。

当然,中国已有一批物理AI赛道的企业在世界模型上做了大量的探索。

上市公司商汤科技发布的绝影开悟世界模型,聚焦‌智能驾驶2.0到3.0的转型‌,支持多视角(最高11路)、分钟级、1080p 高保真可控仿真,用于智驾数据生成与强化学习。

打开网易新闻 查看精彩图片

物理AI第一股、占国内高阶智驾仿真市场53.5%份额的五一视界2025年底发布了全球首款“物理直觉世界模型”51World Model,将大规模应用于智能驾驶、具身机器人、数字工厂等领域。

清华背景的生数科技为“世界-动作统一建模”(WAM)的代表,支持多机器人本体、长程任务(如插花+浇水)一镜到底执行,强调泛化性与实时闭环控制,已适配主流人形/机械臂硬件,估值超120亿元。

也是清华背景的极佳视界,其‌GigaWorld-1模型已实现在汽车、3C、仓储等工业场景落地,估值超100亿元。

当红辣子鸡追觅旗下的魔法原子发布了 ‌Magic-Mix 世界模型(含 WAM 与 Creator 数据引擎)‌,强调“在线理解+离线生成”解耦架构,兼顾推理效率与数据闭环,配套 MagicBot X1 人形机器人实现全栈验证。

另一个创新企业流形空间的WorldScape 系列以 MoE 架构实现高空间智能密度与低推理成本,强调物理规律建模能力,在机械臂操作等长程具身任务中表现优异。