作者|子川
来源|AI先锋官
就在昨天,蚂蚁灵波(Robyant)世界模型 LingBot-World,正式开源!
据官方介绍,LingBot-World不仅能生成长达10分钟的连贯视频,最离谱的是,它允许你像玩3A大作一样,通过键盘(WASD)实时控制视角和动作。
甚至在某些维度的体验上,完全可以和谷歌那个至今都没公测的Genie 3一较高下。
那是骡子是马,咱们直接看效果。
先来看这个让无数网友直呼炸裂的10分钟超长生成。
普通的视频模型,生成个5秒、10秒就容易崩坏。
但LingBot-World硬是让模型在一个古建筑群里瞎逛了整整10分钟!质量丝毫没有降低,无论是光影的变化,还是建筑的透视关系,都非常稳。
但这还不是最牛的。
LingBot-World和Sora、可灵这类AI视频模型最大的区别在于:它是活的,可控的。
视频模型是拍好的电影,你只能看,而LingBot-World是实时演算的游戏,你能玩!
看下面这个第一人称视角,你按W它就往前生成,按D就拐个弯往右走。
所有的场景都是下一秒实时算出来的,这种“言出法随”的掌控感,真的 太有技术含量了。
再来看看世界模型另外一个弱点:“长时记忆”能力,这可以说是世界模型的死穴。
很多模型一回头,物体的位置,天空的颜色都发生了变化,但LingBot-World在这方面拿捏得相当到位。
在这个案例里,镜头移开长达40多秒,当你再转回来时,海浪还在那儿,颜色没变,形状也没变。
除此之外,它还是个听话的“造物主”。
给它一张如下的初始图。
输入“鲨鱼”,画面立刻有一条大白鲨呲着个大白牙就游过来了。
或者输入“龙”,画面里就出来了一条眼神略显呆滞的青龙!
同时团队还把使用过程的视频放出来了,主打的就是一个真实!
有个小遗憾,就是消费级芯片是无法正常运行这个模型的,得企业级的CPU才能扛住。
放眼全球,不仅仅是蚂蚁,越来越多的科技巨头正在疯狂下场押注世界模型。
Google DeepMind的Genie系列试图让AI无师自通地学会控制虚拟世界。
Meta的前首席科学家杨立昆(Yann LeCun)死磕非生成式的JEPA架构,试图让AI像动物一样通过观察掌握物理常识。
在AI圈,有许多人都觉得世界模型才是通往AGI的真正钥匙!
他们普遍认为单纯靠“预测下一个词”的大语言模型(LLM)可能真的到了瓶颈。
杨立昆曾一针见血地指出,LLM仅仅是在操纵语言符号,它们并不真正理解物理世界的因果逻辑。
随着算力的爆炸和架构的成熟,2026年,或许就是世界模型真正迎来爆发的一年。
届时,我们看到的可能不再只是能生成10分钟视频的LingBot,而是真正能在数字与物理世界中自由穿梭、思考并行动的AGI雏形。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
热门跟贴