科学家提出强化学习新方法，迈向决策的统一

DeepTech深科技

2024-07-31 15:10 ·北京

近日，新加坡南洋理工大学的研究人员提出一款名为“可配置镜像梯度下降”（CMD，configurable mirror descent）的算法，并将其用于多智能体场景。

图 | 从左到右：李鹏燈、李姝昕、杨昶、王新润（来源：课题组）

日前，相关论文以《可配置镜像下降:迈向决策的统一》（Configurable Mirror Descent:Towards a Unification of Decision Making）为题发在 2024 国际机器学习大会（ICML，International Conference on Machine Learning）。

图 | 相关论文（来源：ICML）

据介绍，多智能体又分为合作、竞争、以及既有合作又有竞争等三类场景，每个场景都有自己的算法。学界的研究之间也有重合，但是彼此之间的交流相对较少。

而本次研究起源于几年前课题组闲聊时谈到的一个问题：有没有可能用一个算法做所有的决策任务？

但在当时，他们并没有合适的解决思路。最近一两年，领域内的一些新成果给他们带来了一些灵感。

（来源：ICML）

具体来说：基于策略梯度的强化学习算法（PPO，Proximal Policy Optimization），在单智能体上已经得到广泛广泛。

而在合作多智能体上，人们主要使用“多智能体的基于策略梯度的强化学习算法”（MAPPO，Multi-Agent PPO）和“单智能体的基于策略梯度的强化学习算法”（IPPO，Independent PPO）。

学界最近提出的“磁镜下降算法”（MMD，magnetic mirror descent），可被看作是 PPO 算法的一种变体或者拓展，并被证明在单智能体和两人零和博弈中具备有效性。

这让该团队觉得，是时候针对上述问题开展正式研究了。研究中，他们提出了这款名为“可配置镜像梯度下降”的算法（CMD，configurable mirror descent）。

它能解决不同场景的决策问题，应用场景涵盖单智能体、多智能体合作、多智能体竞争、以及既有合作又有竞争的场景。

为了评估本次算法，课题组提出一个包含 15 个环境的 GameBench，结果发现 CMD 算法能在不同决策场景之下，相比现有方法取得相似、或更好的效果。

（来源：ICML）

对于相关论文，审稿人认为本次方法是对于传统 mirror descent 方法的重要扩展，并能从新的角度提供求解不同类型决策问题的思路。

对于课题组所提出的 GameBench，审稿人也给予高度评价，其认为这样一个多元化的学术友好型基准测试环境，对于整个强化学习领域是一个非常好的贡献。

决策，是无处不在的。而本次算法在一定程度上提供了一套统一的处理方法，因为在使用时无需考虑到底是单智能体、还是多智能体，也无需考虑到底是合作还是竞争，故能实现即插即用的效果。

（来源：ICML）

比如，当将本次算法部署到一个机器人当中，机器人就可以充当 AI 警察来帮助人类警察。

也就是说，这时的机器人能够自行处理一些决策问题：

比如，处理车祸或者闯红灯（单智能体问题）；

比如，通过和人类警察合作来做出决策（多智能体合作问题）；

比如，追捕罪犯（多智能体竞争问题）；

比如，和人类警察合作追捕罪犯（多智能体混合合作和竞争的问题）。

总的来说，相比之前只能处理一类场景的方法，预计 CMD 算法能够统一处理这些场景下的决策问题，从而让部署变得更加容易。

“当然目前还只是一个初步成果，后续我们也会继续提升算法的有效性。”研究人员表示。

具体来说，目前的 CMD 算法仅仅基于 tabular 方法，并没有使用用神经网络，后续他们将会改善这一问题。

同时，他们也会在更复杂、更大规模的决策问题上验证本次算法的有效性，最终实现即插即用、又快又好的效果。

参考资料：

1.https://arxiv.org/pdf/2405.11746

运营/排版：何晨龙

01/

02/

03/

04/

05/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴