打开网易新闻 查看精彩图片

来源:广播与电视技术

翻译:李其沛

审稿:杨 宇

近日,谷歌的DeepMind团队推出了一款名为Genie的新模型,该模型仅凭一张图片,即可创造出可互动的游戏环境。这一成就再次证明了生成式人工智能技术正以前所未有的速度发展。

Genie作为一款创新的AI驱动模型,能够将任何图片——不论是现实生活中的照片、手绘图稿、AI生成的图片,还是绘画作品——转化为简约风格的二维平台游戏。该模型在未依赖任何动作标签的情况下,通过大量公开的互联网视频数据集进行训练,展现了极高的适用性与广泛的应用前景。更为重要的是,Genie此次模型的开发,为未来AI代理系统[1]接受“不断创新的新生成世界”中的训练铺平了道路。

该团队在详细介绍中表示:“Genie拥有110亿参数规模,我们可将其视作一种基础性世界模型。”该模型结构包括了一个时空视频分词器、一个自回归动态模型,以及一个简洁且便于扩展的潜在动作模型。

即便没有任何实际的动作标签,或者世界模型文献中常见的领域具体要求,Genie也可以让用户在生成的游戏环境中进行帧精度级的交互。此外,AI代理系统能通过学习获得潜在行动空间,从而模仿生成未曾见过的视频中的行为,这为培养未来具备广泛技能的代理工具奠定了基础。

团队还强调了Genie对于开发泛用型代理系统的重大意义。尽管以往的研究已经证明游戏环境能够有效成为开发AI代理的试验场,但这类开发通常会受到可用游戏数量的限制。Genie的出现,意味着未来的AI代理系统能够在持续扩展的新生成世界中接受训练。在该团队的研究论文中,他们已经通过概念验证证明了Genie学习到的潜在动作能够被应用到人类设计的游戏环境中,而这仅仅是探索未来潜力的开始。

注:

[1] AI代理系统:AI Agent,一种能够感知环境、进行决策和执行动作的智能实体,也可理解为“智能业务助理”。

好文共赏请转发 有话要说请留言