1月29日,继发布空间感知与VLA基座模型后,蚂蚁灵波科技近日开源发布了世界模型LingBot-World。据悉,该模型在视频质量、动态程度及交互能力等指标上表现优异,旨在为具身智能、自动驾驶及游戏开发提供高保真、可实时操控的“数字演练场”。
打开网易新闻 查看精彩图片
据介绍,针对视频生成中常见的“长时漂移”问题,即生成时间过长导致的物体变形或场景结构崩坏,LingBot-World通过多阶段训练及并行化加速,实现了近10分钟的连续稳定无损生成,可为长序列、多步骤的复杂任务训练提供支持。
在交互性能方面,该模型实现了约16 FPS的生成吞吐,端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,也可通过文本指令触发环境变化(如调整天气、改变风格),模型能在保持场景几何关系相对一致的前提下完成变化。
在技术实现上,LingBot-World具备Zero-shot 泛化能力,输入单张真实照片或游戏截图即可生成可交互视频流,无需针对单一场景额外训练。据了解,为解决高质量交互数据匮乏问题,该模型采用了混合采集策略:一方面清洗大规模网络视频以覆盖多样化场景,另一方面结合游戏采集与虚幻引擎合成,提取无UI 干扰的纯净画面并记录操作指令。
打开网易新闻 查看精彩图片
图注:一致性压力测试,镜头最长移开60秒后返回,目标物体仍存在且结构一致
此次发布标志着“灵波”系列已推出三款具身领域大模型。目前,LingBot-World 模型权重及推理代码已面向社区开放。(袁宁)
热门跟贴