蚂蚁灵波开源世界模型LingBot-World：支持10分钟无损生成

网易科技报道

2026-01-29 10:28 ·北京 ·网易科技官方网易号

1月29日，继发布空间感知与VLA基座模型后，蚂蚁灵波科技近日开源发布了世界模型LingBot-World。据悉，该模型在视频质量、动态程度及交互能力等指标上表现优异，旨在为具身智能、自动驾驶及游戏开发提供高保真、可实时操控的“数字演练场”。

据介绍，针对视频生成中常见的“长时漂移”问题，即生成时间过长导致的物体变形或场景结构崩坏，LingBot-World通过多阶段训练及并行化加速，实现了近10分钟的连续稳定无损生成，可为长序列、多步骤的复杂任务训练提供支持。

在交互性能方面，该模型实现了约16 FPS的生成吞吐，端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角，也可通过文本指令触发环境变化（如调整天气、改变风格），模型能在保持场景几何关系相对一致的前提下完成变化。

在技术实现上，LingBot-World具备Zero-shot 泛化能力，输入单张真实照片或游戏截图即可生成可交互视频流，无需针对单一场景额外训练。据了解，为解决高质量交互数据匮乏问题，该模型采用了混合采集策略：一方面清洗大规模网络视频以覆盖多样化场景，另一方面结合游戏采集与虚幻引擎合成，提取无UI 干扰的纯净画面并记录操作指令。

图注：一致性压力测试，镜头最长移开60秒后返回，目标物体仍存在且结构一致

此次发布标志着“灵波”系列已推出三款具身领域大模型。目前，LingBot-World 模型权重及推理代码已面向社区开放。（袁宁）

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴