腾讯详细介绍，其利用AI系统的MOBA，如何击败99.81％的人类对手|163

引述外媒报道，八月，腾讯宣布已开发出一种人工智能系统，该系统可以在国王荣耀（或英勇竞技场，取决于地区）的五对五比赛中击败职业选手队伍。

这是一个值得注意的成就，国王荣誉占据着被称为多人在线战斗竞技场游戏（MOBA）的视频游戏子流派，从玩家不知道其他玩家选择的动作的角度来看，这是不完整的信息游戏。因此，最终的结果不只是获得超级英雄性能的Kings AI荣誉，而是可以用于开发能够解决社会最严峻挑战的系统的见解。

本周发表的一篇论文揭露了腾讯技术的各个层面，合著者称其为“高度可扩展”。他们声称，其新颖的策略使其能够通过演员批评体系来“有效”探索游戏地图，并自我改进火车。随着时间的推移。

正如研究人员所指出的那样，与传统的棋盘游戏和Atari游戏相比，像Honors of Kings这样的实时策略游戏需要高度复杂的动作控制。他们的环境也往往更复杂（国王的荣誉有10 ^ 600个可能的状态和10 ^ 18000个可能的动作），并且目标总体上更复杂。特工不仅必须学会计划，攻击和防御，而且还必须控制技能连击，诱导和欺骗对手，同时还要对抗小兵和全自动炮塔等危险。

腾讯的体系结构由四个模块组成：强化学习学习（RL）学习器，人工智能（AI）服务器，调度模块和内存池。

得益于一些巧妙的压缩，运行在单个处理器内核上的AI服务器决定了AI模型如何与游戏环境中的对象进行交互。它通过自玩游戏生成情节，并基于从游戏状态中提取的功能，ut会预测玩家的行为并将其转发给游戏核心以供执行。然后，游戏核心将返回下一个状态和相应的奖励值，或将模型推动达到某些“国王荣誉”目标的值。

至于调度模块，它与同一台计算机上的多个AI服务器捆绑在一起，并且在压缩并将其发送到内存池之前，它会收集由奖励，功能，动作概率等组成的数据样本。内存池（也是服务器）支持各种长度的采样以及基于生成时间的数据采样，并且实现了循环队列结构，该循环队列结构以数据有效的方式执行存储操作。

最后，“强化学习者”（一种分布式培训环境）通过上述行为者批评方法来加速政策更新。多个强化学习者从内存池并行获取数据，并使用共享内存与之进行通信。一种机制（目标注意力）有助于选择敌人的目标，而另一种机制-长短期记忆（LSTM）（一种能够学习长期依赖关系的算法）则教给英雄玩家一些技能组合，它们对造成“严重”伤害至关重要。

腾讯研究人员的系统对图像特征和游戏状态信息进行编码，以便以数字表示每个单位和敌方目标。动作面具巧妙地结合了经验丰富的人类玩家的先验知识，从而防止AI尝试遍历游戏地图的物理“禁区”（例如具有挑战性的地形）。

在实验中，该论文的合著者在总共600,000个内核和1,064个图形卡（Nvidia Tesla P40和Nvidia V100的混合物）上运行了该框架，该框架处理了16,000个包含隐蔽的单位属性和游戏信息的功能。训练一名英雄需要48张图形卡和18,000个处理器内核，每卡每秒的速度约为80,000个样本。每天进行集体训练，该系统积累了相当于500年的人类经验。

共同作者指出，AI的Elo分数源自用于计算零和游戏中玩家的相对技能水平的系统，随着训练的不断增加，这不足为奇。根据研究人员的说法，它在80小时内变得相对稳定，并且在短短30小时内就开始击败人类头号荣誉玩家中排名前1％的玩家。

系统每133毫秒或大约顶级业余玩家的响应时间通过AI模型执行动作。邀请了五名职业玩家对战，其中包括“ QGhappy.Hurt”，“ WE.762”，“ TS.NuanYang”，“ QGhappy.Fly，eStarPro.Ca”以及参加比赛的玩家“多样性” 8月2日至8月5日在上海举行的ChinaJoy 2019大会。

研究人员指出，尽管eStarPro.Cat在法师型英雄方面表现出色，但AI却平均每场杀了5次，但平均仅被杀死了1.33次。在公开比赛中，其在2100场比赛中的获胜率为99.81％，八位由AI控制的英雄中有五位的获胜率为100％。

腾讯研究人员表示，他们计划在不久的将来开放其框架和算法，以实现对《荣耀之王》等复杂游戏的研究。他们并不是唯一计划或已经这样做的人-DeepMind的AlphaStar击败了人类星际争霸2玩家的99.8％，而OpenAI Five的OpenAI Five框架在公开比赛中两次击败了一支专业团队。