4月16日,阿里发布了一款名为Happy Oyster的开放式世界模型产品。同一天,腾讯开源了HY-World 2.0;次日,群核科技在港交所上市,成为"全球空间智能第一股"。世界模型这条赛道,突然拥挤了起来。
Happy Oyster的核心卖点是实时构建与交互。它支持多模态输入,能音视频联合生成,更关键的是——生成过程中可以持续接收用户指令,画面实时响应、持续演绎。这不是"说一句、等一段"的传统模式,而是一个松散、概率化的实时系统,用户在不断推着它往前走。
我上手测试了几个场景。官方示例里,我尝试直接下达"增加角色数量""添加说话行为"这类直白指令。新增角色没有凭空出现,而是从画面边缘合理进入。画面风格变化时,物品材质和环境光连带调整;角色声音与动作也有初步同步。这不像每次重新生成,更像在维护一个脆弱但确实存在的"当前状态"。
真正的考验是语义理解。我要求加入"赛博朋克元素",Happy Oyster没有简单叠加滤镜。霓虹灯出现后,画面色调被重新校准,不同物品表现出更多反射感——这些细节的同步变化重塑了场景气氛。它显然理解"赛博朋克"是什么,才能在原有输出上修改出贴近《赛博朋克2077》质感的画面。
传统游戏引擎靠资源组合与位置摆放构建场景,Happy Oyster已进入隐式语义生成阶段。对开发者而言,那些原本靠"搭"和"调"手工完成的环节,正慢慢被"描述"取代。灯光、氛围、视觉预研这些前置工作里,它已表现出生产级能力——敏捷尝试创作方向,试错成本被压到最小。
更深层的价值在于绕开现有渲染流程。传统引擎追求在有限算力下把光照算得逼真:BRDF/BSDF材质建模、光源采样、阴影计算、全局光照、各种屏幕空间近似……本质是用可解释、可复现的计算,把光影推向"视觉上正确"。
世界模型的解法完全不同。它不是把这条链路算得更快,而是直接猜一个合理的结果。渲染管线本身也在发生类似变化:DLSS 3.5的Ray Reconstruction用训练过的模型补全有限采样下的光照信息;DLSS 5进一步在材质和光照观感层面重建画面。最终画面早已不是引擎算什么就显示什么,世界模型正更深入介入这最后环节。
三种方案的根本差别在于约束强弱。传统渲染是在解方程;神经渲染在弱约束条件下做推断,仍站在引擎肩膀上,使用几何、深度、运动向量等信息;世界模型则最激进——用最少约束、最少信息,直接补全到空间、光照、物体齐备的程度。生成从像素层跃升到了世界层。
代价同样明显。传统渲染可解释、可复现,一道光为何如此照下来,大体知道计算路径,出了问题能倒查管线。换成模型推断后,输出带有概率性,难以精确约束,同一问题不一定稳定复现,debug成本显著上升。在可控性问题解决前,生成式渲染更接近强大的视觉表达工具。
更现实的协同模式或许是:传统引擎继续负责空间结构、物理规则、游戏逻辑和同步状态,模型逐步接管高频视觉细节、材质表现、局部补全和观感优化。Happy Oyster这类产品会加速这一成熟。
世界需要先被定义,但越来越大比例的画面会被模型"猜"出来。这个比例增长的速度,可能比我们想象中快得多。
我又尝试让Happy Oyster接管更完整的游戏开发——做一段第一人称游戏demo。输入一张《天国:拯救2》的截图,要求生成完整中世纪城镇,用精确提示词控制氛围和视角:阴沉天空下,波西米亚防御小镇,烟囱青烟,泥泞道路通往高耸城墙内的狭窄石门,瞭望塔、木屋、木制脚手架,色调沉稳质朴,空气寒冷潮湿,玩家第一人称骑马驶向城门。
第一眼效果很惊艳。初始画面对原始截图的还原度、氛围塑造都超出预期。但问题很快浮现:当要求角色移动、场景持续演化时,画面稳定性开始波动。建筑结构在几帧后出现微妙变形,光影逻辑偶尔跳跃,"当前状态"的维护在复杂动态场景下显得吃力。
这指向世界模型当前的核心瓶颈:状态一致性。游戏引擎的优势在于精确的状态管理——每个物体的位置、物理属性、与其他对象的关系都被严格定义和同步。Happy Oyster的生成式路径在视觉丰富度上领先,但在需要精确交互、物理反馈、多人同步的场景中,仍需要与引擎深度耦合。
另一个发现是提示词的敏感度。描述越抽象,发挥空间越大,结果越不稳定;描述越具体,约束越严格,越容易触发模型的"安全模式",生成趋于保守。找到这个平衡点需要反复实验,目前还没有成熟的工程化方法论。
游戏工业的需求会反向塑造世界模型的演进方向。当前最可行的落地场景或许是:预研阶段的概念验证、宣传物料的快速生成、特定风格化的视觉原型。这些场景对精确可控性要求较低,对迭代速度和视觉表现力要求高,恰好匹配Happy Oyster的能力区间。
阿里选择此时入局,时机耐人寻味。谷歌、英伟达、Meta、李飞飞的World Labs早已布局,腾讯、群核同日动作,说明行业判断趋于一致——世界模型是从"预测下一个词"到"预测下一个物理状态"的关键跃迁,是AGI愿景与具身智能之间的认知基础设施。先发优势可能体现在数据飞轮和开发者生态上,而非单纯的技术代差。
Happy Oyster的命名也透露产品哲学:牡蛎孕育珍珠,需要时间与外部刺激。世界模型的"珍珠"——稳定、可控、可规模化的生成能力——同样需要在与真实场景的反复摩擦中逐渐成形。一分钟的奇迹已经可见,持续的幻觉仍是挑战。游戏开发者的"描述"时代,正在这个张力中缓缓开启。
热门跟贴