引述外媒报道,八月,腾讯宣布已开发出一种人工智能系统,该系统可以在国王荣耀(或英勇竞技场,取决于地区)的五对五比赛中击败职业选手队伍。

打开网易新闻 查看精彩图片

这是一个值得注意的成就,国王荣誉占据着被称为多人在线战斗竞技场游戏(MOBA)的视频游戏子流派,从玩家不知道其他玩家选择的动作的角度来看,这是不完整的信息游戏。因此,最终的结果不只是获得超级英雄性能的Kings AI荣誉,而是可以用于开发能够解决社会最严峻挑战的系统的见解。

本周发表的一篇论文揭露了腾讯技术的各个层面,合著者称其为“高度可扩展”。他们声称,其新颖的策略使其能够通过演员批评体系来“有效”探索游戏地图,并自我改进火车。随着时间的推移。

正如研究人员所指出的那样,与传统的棋盘游戏和Atari游戏相比,像Honors of Kings这样的实时策略游戏需要高度复杂的动作控制。他们的环境也往往更复杂(国王的荣誉有10 ^ 600个可能的状态和10 ^ 18000个可能的动作),并且目标总体上更复杂。特工不仅必须学会计划,攻击和防御,而且还必须控制技能连击,诱导和欺骗对手,同时还要对抗小兵和全自动炮塔等危险。

腾讯的体系结构由四个模块组成:强化学习学习(RL)学习器,人工智能(AI)服务器,调度模块和内存池。

得益于一些巧妙的压缩,运行在单个处理器内核上的AI服务器决定了AI模型如何与游戏环境中的对象进行交互。它通过自玩游戏生成情节,并基于从游戏状态中提取的功能,ut会预测玩家的行为并将其转发给游戏核心以供执行。然后,游戏核心将返回下一个状态和相应的奖励值,或将模型推动达到某些“国王荣誉”目标的值。

打开网易新闻 查看精彩图片

至于调度模块,它与同一台计算机上的多个AI服务器捆绑在一起,并且在压缩并将其发送到内存池之前,它会收集由奖励,功能,动作概率等组成的数据样本。内存池(也是服务器)支持各种长度的采样以及基于生成时间的数据采样,并且实现了循环队列结构,该循环队列结构以数据有效的方式执行存储操作。

最后,“强化学习者”(一种分布式培训环境)通过上述行为者批评方法来加速政策更新。多个强化学习者从内存池并行获取数据,并使用共享内存与之进行通信。一种机制(目标注意力)有助于选择敌人的目标,而另一种机制-长短期记忆(LSTM)(一种能够学习长期依赖关系的算法)则教给英雄玩家一些技能组合,它们对造成“严重”伤害至关重要。

腾讯研究人员的系统对图像特征和游戏状态信息进行编码,以便以数字表示每个单位和敌方目标。动作面具巧妙地结合了经验丰富的人类玩家的先验知识,从而防止AI尝试遍历游戏地图的物理“禁区”(例如具有挑战性的地形)。

在实验中,该论文的合著者在总共600,000个内核和1,064个图形卡(Nvidia Tesla P40和Nvidia V100的混合物)上运行了该框架,该框架处理了16,000个包含隐蔽的单位属性和游戏信息的功能。训练一名英雄需要48张图形卡和18,000个处理器内核,每卡每秒的速度约为80,000个样本。每天进行集体训练,该系统积累了相当于500年的人类经验。

打开网易新闻 查看精彩图片

共同作者指出,AI的Elo分数源自用于计算零和游戏中玩家的相对技能水平的系统,随着训练的不断增加,这不足为奇。根据研究人员的说法,它在80小时内变得相对稳定,并且在短短30小时内就开始击败人类头号荣誉玩家中排名前1%的玩家。

系统每133毫秒或大约顶级业余玩家的响应时间通过AI模型执行动作。邀请了五名职业玩家对战,其中包括“ QGhappy.Hurt”,“ WE.762”,“ TS.NuanYang”,“ QGhappy.Fly,eStarPro.Ca”以及参加比赛的玩家“多样性” 8月2日至8月5日在上海举行的ChinaJoy 2019大会。

研究人员指出,尽管eStarPro.Cat在法师型英雄方面表现出色,但AI却平均每场杀了5次,但平均仅被杀死了1.33次。在公开比赛中,其在2100场比赛中的获胜率为99.81%,八位由AI控制的英雄中有五位的获胜率为100%。

腾讯研究人员表示,他们计划在不久的将来开放其框架和算法,以实现对《荣耀之王》等复杂游戏的研究。他们并不是唯一计划或已经这样做的人-DeepMind的AlphaStar击败了人类星际争霸2玩家的99.8%,而OpenAI Five的OpenAI Five框架在公开比赛中两次击败了一支专业团队。