当整个行业还在争抢 Agent 、讨论 token 更便宜的时候,三个背景截然不同的团队,把资源压在了同一个方向。
先是李飞飞团队,旗下 AI 世界模型公司 World Labs 发布并开源 Spark 2.0,让任何设备的浏览器里流畅运行上亿粒子的超大 3D 场景,开始逐渐成为现实。
然后是腾讯,开源混元 3D 世界模型 2.0,输入一句话,直接生成可走进去、有物理碰撞、能导入游戏引擎的完整 3D 场景。
同一时间,阿里 ATH 创新事业部推出开放式世界模型产品 HappyOyster,支持实时世界创建与交互。
这个巧合值得停下来想一想。
先说腾讯。过去两年,腾讯混元大模型存在感一直很弱,有声音称,前 OpenAI 研究员姚顺雨主导的新架构版本将在 4 月亮相。
但腾讯今天发的,偏偏是一个世界模型。
这个选择让人意外,但细想又在情理之中。与其在大语言模型赛道和 DeepSeek、豆包、千问继续打消耗战,不如在一个新维度上先建起差异化,跑起来再说。
阿里的逻辑则不同。出手的是 ATH 创新事业部,阿里内部一支相对独立的创新单元。就在4月上旬,ATH 刚凭借视频生成模型 HappyHorse 登顶全球权威 AI 视频盲测榜单。从视频生成到世界模型,沿着同一条空间内容的纵深在推进,节奏很快。但刻意保持了和阿里主品牌的距离,这是一支特种部队在连续卡位。
把视角拉远,世界模型赛道现在处于寡头初现、格局未定的阶段。
Google DeepMind 的 Genie 系列有研究深度,但输出仍然是视频,好看,拿不走,用不了。World Labs 有李飞飞背书,Spark 解决了一个真实难题,把亿级粒子的 3D 场景塞进手机浏览器流畅运行,一个链接就能分享。但生成端 Marble 已迭代至商用版本,且同样闭源。
今天三家的入口选择各不相同。李飞飞守交付,腾讯开源押标准,阿里用特种部队连续卡位。这本身也说明,这条赛道还没有标准答案。
过去两年大模型竞争,本质上是在争一件事:谁能成为内容生产最好的工具。大语言模型在这个维度上已经打得难分难解,这条赛道正在快速迈向商品化。
世界模型争的是另一块地盘:基础设施。
游戏、具身智能、XR,这几条正在加速的赛道,都需要一个能低成本、大规模生产物理准确的 3D 世界能力。世界模型,是它们共同的地基。一旦成为底层,就会变成所有东西跑在上面的管道。
语言模型改变了人和信息的关系。世界模型要改变的,是人和现实的关系。
前者已经发生了。
后者,刚刚开始。
热门跟贴