近期,日内瓦大学与爱丁堡大学的研究团队联合推出了一款名为DIAMOND的强化学习智能体。这款智能体在由扩散模型构建的虚拟世界中训练,展现出了惊人的学习效率。在Atari 100K基准测试中,DIAMOND仅用了2小时的训练时间(相当于在游戏中尝试100,000次动作),就成功登顶,平均得分超越了人类玩家。

打开网易新闻 查看精彩图片

DIAMOND的成功得益于其背后的世界模型与强化学习的结合。世界模型,也称为环境生成模型,能够模拟环境的动态,使智能体在离线训练中优化策略。而扩散模型,则是一种受非平衡热力学启发的生成模型,通过逆转加噪过程生成样本。DIAMOND利用这些技术,构建了一个包含图像和动态行为的复杂模型,从而提高了智能体的学习效率和策略水平。

在CS: GO的实际应用中,DIAMOND展示了强大的局内决策能力。它能够在多种战术场景中迅速调整战斗策略,保持领先。这一突破不仅阐明了智能体在电竞中的实用性,也引发了对未来电竞场景中AI角色是否能担任决策者的热烈讨论。

打开网易新闻 查看精彩图片

DIAMOND的成功标志着扩散模型与强化学习在游戏领域的结合迈出了重要一步。随着研究的深入和技术的不断革新,我们可以期待这种智能体在更加复杂的游戏中,甚至是现实世界的决策环境中发挥重要作用。