蚂蚁深夜开源世界模型LingBot-World，10分钟稳帧+WASD实时操控，比肩谷歌Genie 3！

AI先锋官

2026-01-30 07:16 ·北京 ·优质互联网领域创作者

作者｜子川

来源｜AI先锋官

就在昨天，蚂蚁灵波（Robyant）世界模型 LingBot-World，正式开源！

据官方介绍，LingBot-World不仅能生成长达10分钟的连贯视频，最离谱的是，它允许你像玩3A大作一样，通过键盘（WASD）实时控制视角和动作。

甚至在某些维度的体验上，完全可以和谷歌那个至今都没公测的Genie 3一较高下。

那是骡子是马，咱们直接看效果。

先来看这个让无数网友直呼炸裂的10分钟超长生成。

普通的视频模型，生成个5秒、10秒就容易崩坏。

但LingBot-World硬是让模型在一个古建筑群里瞎逛了整整10分钟！质量丝毫没有降低，无论是光影的变化，还是建筑的透视关系，都非常稳。

但这还不是最牛的。

LingBot-World和Sora、可灵这类AI视频模型最大的区别在于：它是活的，可控的。

视频模型是拍好的电影，你只能看，而LingBot-World是实时演算的游戏，你能玩！

看下面这个第一人称视角，你按W它就往前生成，按D就拐个弯往右走。

所有的场景都是下一秒实时算出来的，这种“言出法随”的掌控感，真的太有技术含量了。

再来看看世界模型另外一个弱点：“长时记忆”能力，这可以说是世界模型的死穴。

很多模型一回头，物体的位置，天空的颜色都发生了变化，但LingBot-World在这方面拿捏得相当到位。

在这个案例里，镜头移开长达40多秒，当你再转回来时，海浪还在那儿，颜色没变，形状也没变。

除此之外，它还是个听话的“造物主”。

给它一张如下的初始图。

输入“鲨鱼”，画面立刻有一条大白鲨呲着个大白牙就游过来了。

或者输入“龙”，画面里就出来了一条眼神略显呆滞的青龙！

同时团队还把使用过程的视频放出来了，主打的就是一个真实！

有个小遗憾，就是消费级芯片是无法正常运行这个模型的，得企业级的CPU才能扛住。

放眼全球，不仅仅是蚂蚁，越来越多的科技巨头正在疯狂下场押注世界模型。

Google DeepMind的Genie系列试图让AI无师自通地学会控制虚拟世界。

Meta的前首席科学家杨立昆（Yann LeCun）死磕非生成式的JEPA架构，试图让AI像动物一样通过观察掌握物理常识。

在AI圈，有许多人都觉得世界模型才是通往AGI的真正钥匙！

他们普遍认为单纯靠“预测下一个词”的大语言模型（LLM）可能真的到了瓶颈。

杨立昆曾一针见血地指出，LLM仅仅是在操纵语言符号，它们并不真正理解物理世界的因果逻辑。

随着算力的爆炸和架构的成熟，2026年，或许就是世界模型真正迎来爆发的一年。

届时，我们看到的可能不再只是能生成10分钟视频的LingBot，而是真正能在数字与物理世界中自由穿梭、思考并行动的AGI雏形。

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴