复杂动态环境是孕育和检测智能的关键。环境的复杂性可以被划分为物理复杂性与社会复杂性。在AI世界中物理复杂性已被广泛研究。智能体在虚拟环境中自由探索和环境中的物体交互,而社会复杂性同样不可或缺。当智能体融入社会要面对复杂的社交关系与社会规范,只有同时应对好物理复杂性与社会复杂性,AI 才能真正迈向通用场景。
基于此北京通用人工智能研究院推出创新成果AdaSociety,它构建了一个多智能体决策环境,支持开放式物理任务和自适应社交结构,填补AI研究重要空白。AdaSociety 不只有物理任务,更是充满社会复杂性的智能体决策场。在这里智能体要学会处理开放式任务,还要学会与其他智能体建立关系、协商合作,甚至创建以自己为核心的社会组织。
论文标题: AdaSociety: An Adaptive Environment with Social Structures for Multi-Agent Decision-Making 论文链接: https://arxiv.org/abs/2411.03865一、背景
复杂动态环境孕育、检测智能。在现有的经典环境中,虽然如我的世界(Minecraft)[1] 和多关节接触物理引擎(Mujoco)[2] 等平台能够模拟复杂的物理场景,却往往缺乏多智能体之间的互动;而如胡闹厨房(Overcooked)[3] 和 AI经济学家(AI Economist) [4] 等环境虽然聚焦于智能体之间的交互行为,但其物理任务的复杂性较为单一。
事实上,环境的复杂性来源于两个重要维度:物理复杂性与社会复杂性,缺少任意一方面都会导致智能体能力的局限性,使其无法在真实世界中表现出完整的适应能力。然而,目前兼具这两种复杂性的环境仍然是一个空白。
为了解决这一问题,通研院研究团队提出了一个全新的多智能体环境——AdaSociety。该环境高度可定制,融合了不断扩展的物理空间与自适应的社交结构。
在这个环境中,智能体不仅要在复杂的地图中探索资源、完成任务,还要与其他智能体建立并维护各种社交关系,共同应对挑战。这种设计使得AdaSociety能够生成大量且多样化的任务,为智能体的学习和决策提供无限可能。
二、动态物理环境
在AdaSociety中,智能体在环境中移动,通过采集资源与合成资源获取收益。有些资源是自然资源,可以从环境中直接采集;另一些资源是人造资源,需要在环境中特定的事件格上消耗手中的资源来制造。
随着智能体的采集,新的资源和事件会不断出现,发现/生产出不同的资源就可能看到并生产新的资源,任务空间随之不断扩展,为智能体提供持续的学习和探索空间。这就像人类社会在发展中不断产生前所未见的发明与发现。
在环境中,研究人员默认设置了15种资源与8种事件,他们之间的合成关系构成了一个复杂的“合成树”。此外,智能体也具有异质性,智能体可能对资源有不同的价值偏好,他们的背包能够承载的各资源容量也可以不一致。
图 AdaSociety中包含各种各样的资源与不同的事件。在事件区域可以进行资源合成形成新的资源,合成关系形成了上图中的“合成树”。
三、显式社会结构
智能体在AdaSociety中可以建立各种社交关系,这些关系会直接影响它们的决策和信息获取。在人类社会中,人们会分享利益来寻求合作共赢,也会分享所见所闻来开阔视野。在AdaSociety中,智能体也是如此。它们自主选择合作伙伴,协商利益分配,甚至创建自己的团队或组织。
AdaSociety的社交结构通过一个多层次有向图来表示,基底层的节点表示智能体个体,而高层的节点表示组织。每个智能体可以与其他节点建立不同属性的连接,也可以断开已有的连接。
不同属性社会连接可能具有不同效果。比如他们可以形成点对点之间的社交关系以共享视野,也可以通过与共同高层节点连接来形成利益共同体,共享所得收益。智能体之间、智能体与组织之间错综的连接形成复杂社交网络。
图 AdaSociety的社交结构——多层有向图。第0层的节点表示智能体个体,更高层的节点表示组织,有向边表示节点间的关系,每个节点可以与同层或相邻层的节点建立不同属性的联系。
四、任务设置
AdaSociety中内置了三个社交复杂度递进的任务。在任务Social Structure中,智能体会在给定的社交关系与给定的利益分配函数下进行行动。在任务Contract中,智能体在一开始可以选择自己的利益共同体组织,在同组织成员共享收益的条件下进行行动。在任务Negotiation中,智能体之间会先进行谈判,确定合作对象,并谈判利益分配方式,在谈判达成共识下进行行动。
图 AdaSociety内置的三个任务,对于社交关系和利益分配函数的可操作程度不同
AdaSociety提供了丰富的接口和定制选项,允许研究者根据自己的需求调整环境参数,轻松创建各式各样的任务。除了使用环境提供的内置内容以外,用户还可以通过JSON配置文件轻松定制自己的资源、事件、社会联系属性、智能体的资源偏好、背包容量以及环境初始条件等。研究人员也提供了多个API允许用户对智能体和环境进行更复杂的更改。
五、基线测试
AdaSociety支持基于神经网络的、基于语言模型的和基于规则等多类型智能体。研究团队在代码中给出了一些应用示例。研究人员测试了多个经典的决策算法,以及基于大语言模型规划器+启发式控制器的决策方法,并用多种性能评估指标,如个体奖励、公平性得分、完成率以及社交网络的平均度数和最大度数等,全面评估智能体的性能。
结果表明:当前方法均未能十分有效利用AdaSociety提供的可变的社会结构来形成合作,不过先验知识的引入对于提升算法性能有很大的作用。比如,当研究人员给算法设计由易到难的课程进行学习时,算法能够更好地学习出形成团体并合作,在给大语言模型配上带有环境先验知识的启发式控制器后,它的效果也会比PPO等不具有先验知识的算法更好。
总体而言,AdaSociety对于现有的决策方法具有合理的复杂水平。
图 在任务Social Structure中,给定不同的社会结构,PPO算法的单轮收益情况(图左1);在社交结构会在固定时间变化的环境Social Structure-Dynamic中,各基线算法的单轮收益情况(图中);在Social Structure-Dynamic中,各基线算法的训练曲线(图右)。可见社会结构会显著影响算法收益与训练。带有先验知识的课程学习方法会比纯RL方法有更大优势。
图 在任务Contract(上排)与Negotiation(下排)中,各基线算法的公平性(第一列)、合成资源量(第二列)、形成组织的最大人数(第三列)、形成组织的平均人数(第四列)。课程学习方法有助于合成更多的高级资源并形成规模较大的组织。
图 LLM规划器+基于规则的控制器在各任务上的表现。可以合成较多的高级资源,但是在最困难的Negotiation任务上没有形成大型的组织,没有达到最优的效果。
六、结语
AdaSociety是一个富有挑战性的“动态社交演练场”,有助于深入探索智能体在复杂动态环境中的决策机制、合作策略以及社交动态。我们期望通过这一平台,测试智能体同时应对物理复杂性与社会复杂性的能力。
随着人工社会智能不断发展,AdaSociety将会成为更多研究者探索通用智能体的重要平台,为多智能体系统设计和优化提供了试验田。
参考文献
[1] Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, and Anima Anandkumar. Minedojo: Building open-ended embodied agents with internet-scale knowledge. Advances in Neural Information Processing Systems, 35:18343–18362, 2022.
[2] Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In 2012 IEEE/RSJ international conference on intelligent robots and systems, pages
5026–5033. IEEE, 2012.
[3] Micah Carroll, Rohin Shah, Mark K Ho, Tom Griffiths, Sanjit Seshia, Pieter Abbeel, and Anca Dragan. On the utility of learning about humans for human-ai coordination. Advances in neural information processing systems, 32, 2019.
[4] Stephan Zheng, Alexander Trott, Sunil Srinivasa, David C Parkes, and Richard Socher. The ai economist: Taxation policy design via two-level deep multiagent reinforcement learning. Science advances, 8(18):eabk2607, 2022.
来源:公众号【北京通用人工智能研究院】
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴