打开网易新闻 查看精彩图片
图源:Google DeepMind
撰文 | 泰伯网 林桐
泰伯网讯,北京时间1月29日至30日凌晨,蚂蚁集团与谷歌相继亮出世界模型核心成果,前者旗下的具身智能公司“蚂蚁灵波”开源通用世界模型LingBot-World,后者开放了Genie 3的体验入口,两大巨头形成对垒态势。
1月29日,“蚂蚁灵波”发布并开源通用世界模型LingBot-World,旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场”,这也是业界首个可对标Genie 3的开源世界模型。
公开资料显示,该模型具备Zero-shot泛化能力,仅需输入单张真实照片或游戏截图即可生成可交互视频流。并且凭借长时序一致性(即记忆能力)、实时交互响应,以及对“动作-环境变化”因果关系的理解,能够在数字世界中“想象”物理世界,为智能体的场景理解和长程任务执行提供低成本、高保真的试错空间。
近三天,“蚂蚁灵波”已相继开源空间感知模型LingBot-Depth、具身大模型LingBot-VLA,与世界模型LingBot-World共同实现从数字世界到物理感知的关键延伸,完成“基础模型-通用应用-实体交互”的路径链条。
1月30日凌晨,谷歌宣布向其AI Ultra的成年订阅用户开放Genie 3体验入口,允许用户直接在线体验其世界模型能力。
公开信息显示,Genie 3是首个实时、交互式世界模型,能够通过简单的文字描述生成照片级真实世界。目前Genie 3的生成时间限制为60秒,帧率上限为24帧/秒,分辨率为720p。
据中国日报网报道,该消息一经发布,迅速占据X(原Twitter)热门榜单首位,海外AI社区反响热烈。
(本期编辑 | 墨川 校对 | 李欢)
热门跟贴