4月16日,阿里ATH创新事业部突然放出HappyOyster——一个能让用户用一句话生成可探索数字世界的产品。没有发布会,没有预热,官网直接上线。这支团队去年刚做出爆火的HappyHorse,现在他们要把"文生视频"的剧本彻底改写。
从"等待渲染"到"实时演化"
传统文生视频的工作流是:写提示词、排队等待、拿到成片。用户是内容的消费者,不是世界的建造者。
HappyOyster和谷歌Genie3走了一条完全不同的路——世界模拟器流派。核心区别在"时间跨度上的世界演化建模":模型不是生成单帧画面,而是学习空间、物理与因果规律,主动预测情节和画面的演变。
简单说,它不是在"拍视频",而是在"跑模拟"。
阿里这次的技术路线比谷歌更激进:时间跨度拉得更长,从建模初始就嵌入多样控制信号,在统一时序框架下同时优化生成质量、长时序连贯性和实时可控性。
结果是两个产品形态:Wander(漫游)和Direct(导演)。前者让你探索,后者让你改写规则。
漫游模式:突破画框的物理空间
一句话或一张图,生成具备物理一致性的完整空间。物体位置稳定、场景持久存在,视角与光照跟随第一人称移动。你能自由切换方向、推拉镜头,突破初始画面的边界。
目前支持1分钟连续实时位移与镜头控制,风格切换多样化。
关键突破是"物理一致性"——传统视频生成里,镜头一转,桌子可能就换了位置。HappyOyster试图让世界的底层规则保持稳定。
导演模式:实时介入世界演化
这是HappyOyster区别于Genie3的独家能力。在视频任意节点,用文字、语音或图像随时切换镜头、改写剧情、调度角色。光照、重力、角色动作与场景因果持续演化,题材风格可选。
当前支持3分钟以上480p或720p实时画面生成。
两个模式尚未打通,但路线图清晰:未来用户边探索边创造,无缝融合。
谁需要这个?三个场景已经跑通
游戏开发:快速生成可玩原型,玩家实时驱动世界演化,动态剧情分支无需预设脚本。内容生产成本下降,沉浸感上升。
影视创作:导演用自然语言描述创意,系统实时生成分镜。任意节点改镜头、换角色、变剧情,创意验证周期大幅压缩。
文旅教育:用户以第一视角走进名画或历史现场,交互中探索因果、改写走向。从"看视频学知识"变成"进世界做实验"。
更远的想象力:线下智能空间、穿戴设备结合,根据人的位置、动作、语言实时生成沉浸式内容,数字世界与现实共振。
为什么是"快乐生蚝"?
ATH创新事业部的命名风格很统一——HappyHorse、HappyOyster。生蚝的隐喻或许是:外壳坚硬(技术底座),内里柔软(创作自由),需要撬开(用户介入)。
这支团队的选择也耐人寻味。世界模型仍是前沿探索,技术范式未定型,商业化路径模糊。阿里没有把它放进通义大模型的主线产品,而是放在创新事业部快速试错。
对比谷歌Genie3的学术发布节奏,HappyOyster直接开放产品化入口。这种"先开枪再画靶"的策略,符合阿里近年在C端产品上的激进风格。
数据收束
漫游模式1分钟连续实时控制,导演模式3分钟以上实时生成,480p/720p画质——这些数字定义了当前世界模型的工程边界。不是概念视频,是真实可触的产品阈值。
世界模型赛道真正的竞争,不是参数规模,而是"可控时长×物理一致性×实时交互"的乘积。HappyOyster把分母做大了,但分子(画质)还在妥协。720p在影视工业不够看,在游戏原型和文旅场景已够用。
关键变量是打通双模式后的体验完整性。届时,用户从探索者变为造物主的切换成本,将决定这个产品能否跨越"玩具"与"工具"的鸿沟。
热门跟贴