腾讯阿里同日发布世界模型，AI从"对话"进化到"造世界"|世界模型|全模态|机器人|知名企业|腾讯阿里|阿里巴巴集团

世界模型是什么？为什么突然火了？腾讯vs阿里：两款世界模型有什么区别？腾讯混元3D世界模型2.0：游戏开发者的福音阿里Happy Oyster：实时交互的世界模拟器两款产品对比这东西能解决什么痛点？游戏开发：从月级到天级影视制作：实时预览不再是梦数字孪生：复刻真实世界从"对话"到"造世界"：AI能力的演进中国企业的机会写在最后

昨天刷到一条新闻，我愣了几秒——腾讯和阿里在同一天发布了世界模型。不是视频生成模型，不是3D建模工具，是世界模型。这玩意儿能干嘛？一句话，造世界。

我翻了十几篇报道，发现这事儿比想象中大。两家大厂选在同一天发新品，绝对不是巧合。世界模型这个赛道，正在成为AI的下一个战场。

先说个概念。世界模型（World Model）不是新词，但今年突然爆火。

简单说，世界模型能理解物理规律、预测动作后果。传统大模型只懂语言，不懂物理。你让它生成一个"杯子掉落"的视频，它可能让杯子穿模、悬浮，因为它不知道重力是什么。

世界模型不一样。它像人类大脑一样，理解空间、物理、因果。这是机器人、自动驾驶、具身智能的核心技术基础。

世界模型被视为通用人工智能(AGI)的"数字地基"，它需像人类大脑一样理解物理规律、预测动作后果，是机器人、自动驾驶等具身智能应用的核心。

为什么现在火了？因为技术终于能落地了。以前世界模型只能生成视频，现在能生成可编辑的3D资产，能直接导入游戏引擎用。这才是真正的质变。

打个比方：传统大模型像只会说话的百科全书，你问什么它答什么。世界模型像会思考的物理学家，你给它一个场景，它能推演接下来会发生什么。杯子掉下来会碎、水会洒、球会弹起来——这些"常识"，传统大模型根本不懂。

4月16日这天，腾讯发了混元3D世界模型2.0（HY-World 2.0），阿里发了Happy Oyster（快乐生蚝）。两款产品定位不同，但目标一致：让AI从"对话"进化到"造世界"。

腾讯这款产品的核心卖点很清晰：一句话生成可编辑的3D空间。

我试了一下理解它的能力：输入"生成一个日式RPG风格的中世纪地牢"，模型就能生成一个结构完整的3D空间。生成的资产可以直接导入Unity、UE等游戏引擎，进行二次编辑。

这跟之前的视频生成模型有本质区别。混元世界模型1.5只能生成视频文件，2.0能生成Mesh、3DGS、点云等多格式3D资产。从"看"到"用"，这一步跨越了实用性的门槛。

技术架构上，腾讯用了WorldMirror 2.0和HY-Pano-2.0全景生成模型。简单说，它能从普通图片映射出360度全景空间，不需要精确的相机参数。这就像你拍一张照片，AI能脑补出整个房间的样子——墙后面是什么、天花板长什么样、地板是什么材质，全部推理出来。

更厉害的是角色模式。生成的3D空间支持角色自由探索，有真实的物理碰撞。就像在游戏里一样，你操作角色走动，不会穿墙，不会掉进地板里。这意味着生成的不是"场景图片"，是"可玩关卡"。

阿里的产品走的是另一条路：实时构建和交互。

Happy Oyster有两个核心功能：Wander（漫游）和Direct（导演）。

Wander模式下，你输入一句话或一张图，它生成一个完整空间。你可以在里面自由移动，物体位置稳定，场景持久存在。支持1分钟连续实时位移。

Direct模式是独家功能。你可以在视频的任意节点，通过文字、语音、图像改写剧情、调度角色。比如你看到场景里有个NPC，可以说"让他走到窗边"，画面就会实时响应。支持3分钟以上的480p或720p实时画面。

Happy Oyster采用长时间跨度的世界演化建模方式，把"被动生成内容"转变为"主动模拟世界演化"。

我试着想象了一下这个场景：你在做一个短片，主角在森林里走。突然你想让他遇到一只鹿，就说"加一只鹿从右边走过"。画面里立刻出现一只鹿，光影、运动轨迹都对。这种实时创作能力，以前想都不敢想。

维度: 核心能力 | 腾讯 HY-World 2.0: 生成可编辑3D资产 | 阿里 Happy Oyster: 实时交互世界模拟

维度: 输出格式 | 腾讯 HY-World 2.0: Mesh/3DGS/点云 | 阿里 Happy Oyster: 实时视频流

维度: 游戏引擎对接 | 腾讯 HY-World 2.0: ✅ Unity/UE | 阿里 Happy Oyster: ❌ 暂不支持

维度: 实时交互 | 腾讯 HY-World 2.0: ❌ 生成后编辑 | 阿里 Happy Oyster: ✅ 流式生成

维度: 导演模式 | 腾讯 HY-World 2.0: ❌ 不支持 | 阿里 Happy Oyster: ✅ 独家功能

维度: 开源状态 | 腾讯 HY-World 2.0: ✅ 已开源 | 阿里 Happy Oyster: ❌ 内测中

维度: 适用场景 | 腾讯 HY-World 2.0: 游戏开发、关卡设计 | 阿里 Happy Oyster: 影视制作、实时演绎

一句话总结：腾讯偏"生产工具"，阿里偏"创作平台"。腾讯解决的是"怎么快速造出能用的一关"，阿里解决的是"怎么实时演绎一个故事"。

说完了技术，聊聊实际价值。

传统游戏开发，一个关卡从概念到落地，少则几周，多则几个月。美术建模、场景搭建、碰撞测试，每个环节都是人力堆出来的。

我有个做独立游戏的朋友，他说一个简单的室内场景，从白模到成品，至少要两周。美术、关卡设计、程序，三个人配合才能搞定。如果用世界模型，可能一天就能出原型。

有了世界模型，情况变了。你输入"赛博朋克风格的地下城市"，几秒钟生成一个可漫游的3D空间。导入引擎，加几个NPC，调一下光照，一个关卡原型就出来了。

腾讯游戏相关人士表示，未来没有专业3D建模和编程基础的玩家或独立开发者，甚至仅凭文字或图像就能快速生成一个城市级别的场景。

这不是降本增效，这是生产力的质变。独立开发者一个人就能做以前需要团队才能完成的工作。

传统影视制作，概念验证和预可视化需要大量时间和成本。导演想看一个场景效果，得等美术出图、3D建模、渲染。

Happy Oyster的导演模式，让导演可以在生成过程中随时调整。说一句"把光照改成黄昏"，画面实时响应。这把创意迭代周期从"天"压缩到"秒"。

想象一下这个场景：导演在片场，突然想换一个镜头角度。以前得重新布光、重新走位，现在对着AI说一句就行。这不是科幻，这是正在发生的技术。

两款产品都支持复刻真实场景。输入一段空间视频或多视角图片，模型构建高精度数字孪生空间。

这能用在室内装修预览、城市规划、文化遗产保护。你拍一段故宫的视频，AI就能生成一个可漫游的数字故宫。这比传统3D扫描便宜太多了。

传统3D扫描需要专业设备、专业团队，成本动辄几十万。现在一部手机、一段视频就能搞定。这是技术民主化的典型案例。

把视角拉远一点。

2023年，AI能对话。ChatGPT让全世界见识了大语言模型的能力。

2024年，AI能画图。Midjourney、Stable Diffusion让普通人也能创作高质量图像。

2025年，AI能生成视频。Sora、Runway让视频创作门槛大幅降低。

2026年，AI开始造世界。

这不是简单的功能叠加，是能力层级的跃迁。对话是语言理解，画图是视觉生成，造世界是空间理解和物理模拟。

世界模型解决的是传统大模型"只懂语言、不懂物理"的根本问题。这是具身智能、机器人、自动驾驶的基础设施。没有世界模型，机器人永远只能在预设环境里干活；有了世界模型，机器人能在未知环境里理解、预测、决策。

这才是真正的AGI地基。

有意思的是，这次世界模型赛道，中国企业跑得很快。

WorldArena评测平台显示，阿里高德的ABot-PhysWorld已经登顶榜首。这个模型能准确预见物体在复杂交互下的运动轨迹——滑动、倾倒、堆叠、流体变化。

腾讯这次开源混元3D世界模型2.0，也是走开放路线。让开发者、企业都能用，这是在抢生态位。

中国企业第一次在世界模型这个前沿赛道，和谷歌、英伟达站在同一起跑线上。而且这次，我们跑得更快。

腾讯阿里同日发布世界模型，不是巧合，是信号。

世界模型赛道正在从"学术探索"走向"产业落地"。谁能先做出"真能干活"的产品，谁就能在具身智能时代占据先机。

对我们普通人来说，这意味着创作门槛的又一次大幅降低。游戏开发、影视制作、数字孪生，这些曾经需要专业团队、大量资金的工作，正在变得触手可及。

你准备好用AI造一个世界了吗？

腾讯阿里同日发布世界模型，AI从"对话"进化到"造世界"

热搜

热门跟贴

热搜

热门跟贴

相关推荐

阿里开源9B模型：3个隐藏开关让AI"口无遮拦"

马斯克曾言：留给旧世界的时间，只剩 1000 天！中国会在 AI 时代

杨立昆发布史上最“轻”世界模型，单GPU可训，规划速度提升48倍

AI预言正在成为现实：99%人将被淘汰，仅三类人能成功突围

AI应用遍地开花，掘金关键在智能时代！

中国这两个男人，才是AI时代真正的“印钞机”

AI会抢了人类饭碗，为什么还要大力发展呢？原来是一场“阳谋”

陈根：AI时代，淘汰与创造正在同时发生

史上第一次！中美7个AI全部背叛人类：为了救同类，它们竟撒谎了

鸡生蛋却生出一窝这个，瞬间尴尬无比，现在的AI真的不是人

现在的AI技术太强了，最后一个画面直接暴击了

阿里甩出AI语音转写神器！准确率击败字节腾讯，连方言都能写对

世界模型==VQA？机器人不用想象画面，预测语义就够了

机器人看不清，蚂蚁给治好了

横扫全球15项SOTA！高德首个面向AGI的全栈具身技术体系大公开

π0.7发布，机器人迎来GPT-2时刻

亦庄机器人马拉松现场名场面合集

朱旻琦：具身智能用一天进化一天、聪明一天 机器人普及核心痛点是需要二次开发和适配

华为首款 AI 眼镜首测：轻若无物，还能唤醒小艺看世界

LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

朱旻琦：具身智能用一天进化一天、聪明一天机器人普及核心痛点是需要二次开发和适配