近日,新加坡南洋理工大学的研究人员提出一款名为“可配置镜像梯度下降”(CMD,configurable mirror descent)的算法,并将其用于多 智能体场景。

打开网易新闻 查看精彩图片

图 | 从左到右:李鹏燈、李姝昕、杨昶、王新润(来源:课题组)

日前,相关论文以《可配置镜像下降:迈向决策的统一》(Configurable Mirror Descent:Towards a Unification of Decision Making)为题发在 2024 国际机器学习大会(ICML,International Conference on Machine Learning)。

打开网易新闻 查看精彩图片

图 | 相关论文(来源:ICML)

据介绍,多智能体又分为合作、竞争、以及既有合作又有竞争等三类场景,每个场景都有自己的算法。学界的研究之间也有重合,但是彼此之间的交流相对较少。

而本次研究起源于几年前课题组闲聊时谈到的一个问题:有没有可能用一个算法做所有的决策任务?

但在当时,他们并没有合适的解决思路。最近一两年,领域内的一些新成果给他们带来了一些灵感。

打开网易新闻 查看精彩图片

(来源:ICML)

具体来说:基于策略梯度的强化学习算法(PPO,Proximal Policy Optimization),在单智能体上已经得到广泛广泛。

而在合作多智能体上,人们主要使用“多智能体的基于策略梯度的强化学习算法”(MAPPO,Multi-Agent PPO)和“单智能体的基于策略梯度的强化学习算法”(IPPO,Independent PPO)。

学界最近提出的“磁镜下降算法”(MMD,magnetic mirror descent),可被看作是 PPO 算法的一种变体或者拓展,并被证明在单智能体和两人零和博弈中具备有效性。

这让该团队觉得,是时候针对上述问题开展正式研究了。研究中,他们提出了这款名为“可配置镜像梯度下降”的算法(CMD,configurable mirror descent)。

它能解决不同场景的决策问题,应用场景涵盖单智能体、多智能体合作、多智能体竞争、以及既有合作又有竞争的场景。

为了评估本次算法,课题组提出一个包含 15 个环境的 GameBench,结果发现 CMD 算法能在不同决策场景之下,相比现有方法取得相似、或更好的效果。

打开网易新闻 查看精彩图片

(来源:ICML)

对于相关论文,审稿人认为本次方法是对于传统 mirror descent 方法的重要扩展,并能从新的角度提供求解不同类型决策问题的思路。

对于课题组所提出的 GameBench,审稿人也给予高度评价,其认为这样一个多元化的学术友好型基准测试环境,对于整个强化学习领域是一个非常好的贡献。

决策,是无处不在的。而本次算法在一定程度上提供了一套统一的处理方法,因为在使用时无需考虑到底是单智能体、还是多智能体,也无需考虑到底是合作还是竞争,故能实现即插即用的效果。

打开网易新闻 查看精彩图片

(来源:ICML)

比如,当将本次算法部署到一个机器人当中,机器人就可以充当 AI 警察来帮助人类警察。

也就是说,这时的机器人能够自行处理一些决策问题:

  • 比如,处理车祸或者闯红灯(单智能体问题);

  • 比如,通过和人类警察合作来做出决策(多智能体合作问题);

  • 比如,追捕罪犯(多智能体竞争问题);

  • 比如,和人类警察合作追捕罪犯(多智能体混合合作和竞争的问题)。

总的来说,相比之前只能处理一类场景的方法,预计 CMD 算法能够统一处理这些场景下的决策问题,从而让部署变得更加容易。

“当然目前还只是一个初步成果,后续我们也会继续提升算法的有效性。”研究人员表示。

具体来说,目前的 CMD 算法仅仅基于 tabular 方法,并没有使用用神经网络,后续他们将会改善这一问题。

同时,他们也会在更复杂、更大规模的决策问题上验证本次算法的有效性,最终实现即插即用、又快又好的效果。

参考资料:

1.https://arxiv.org/pdf/2405.11746

运营/排版:何晨龙

01/

02/

03/

04/

05/

打开网易新闻 查看精彩图片