基于大语言模型(LLM)的代理已经被广泛应用于不同任务,如个人助手或活动规划。目前大多数的研究集中在代理间的合作与协作上,对竞争这一促进社会和经济发展的重要机制的关注较少。本文提出了一个适用于LLM代理的竞争框架 CompeteAI,并深入探讨了LLM代理之间的竞争动态;以此为窗口,探索智能体如何帮助社会科学研究。本文被ICML 2024录用被选为Oral进行口头汇报。
论文标题: CompeteAI: Understanding the Competition Dynamics of Large Language Model-based Agents 论文链接: https://arxiv.org/abs/2310.17512 代码链接: https://github.com/microsoft/competeai
一、背景介绍
竞争是人类社会发展的关键驱动力,理解竞争有助于更好地理解社会运行。研究竞争通常通过下面两种方法:
传统研究竞争的方法主要是依靠实证研究 [1, 2],即通过分析具体的竞争实例总结规律,得出见解。但研究人员往往无法获得详尽的数据,导致不能深入研究竞争。
随着计算科学的兴起,出现了一种新的方法——基于代理的建模(Agent Based Modeling) 。该方法通过模拟个体的行为来生成整体动态,很好地解决了实证研究存在的问题。但该方法最关键的一点在于代理的智能性,过去的代理由简单规则、优化函数、大数据来驱动[3],这些驱动方法不够智能导致模拟的真实性存疑。
大模型的出现为代理建模提供了一种新的驱动方式。研究人员将大模型驱动的代理用于研究代理间的协同合作,而对竞争这一同等重要的机制研究甚少。
二、主要贡献总结
本文填补这一研究空缺。我们首先提出了一个用于研究代理竞争动态的通用框架 CompeteAI, 它提供了一种结构化的方式去形式化各种竞争环境。然后我们根据该框架实现了一个市场竞争的环境:在一家小镇中两家餐馆相互竞争去吸引顾客。其中每家餐馆均由各自的代理负责运行,顾客也由背景各异的代理扮演。
我们进行了多次的模拟实验,然后从微观和宏观两个层面进行了分析。下面是我们的关键发现:
LLM 代理的感知能力:LLM 可以精准地感知以文本形式呈现的环境,然后全面地分析这些信息。这是模拟实验成功的基础
市场策略:代理在竞争中表现出了多种经典的市场策略,包括产品差异化、模拟、以用户为导向等。
顾客决策:顾客决策受到多种因素影响,且因人而异。值得注意的是,顾客在单人就餐和抱团前去就餐时考虑的因素有很大不同。
马太效应:我们的环境中出现了经典的马太效应(穷者愈穷,富者愈富)。在部分模拟实验中,一家餐馆的客流量越来越大,而另一家越来越少。
顾客抱团减弱赢者通吃:马太效应的直接结果就是赢者通吃,而顾客抱团能够减弱这种情况的发生。
竞争促进产品质量提升:当代理之间竞争时,通常会提升产品质量,以此来吸引顾客。该现象符合经典的理论。
三、通用框架
CompeteAI框架如下图所示:
该框架规定构建竞争环境分为四步:
环境选择:我们需要选择一个适合大语言模型感知的环境,例如纸牌游戏,市场竞争。相反体育竞速等环境显然不适合。
环境构建:这是核心的一步。首先我们设计一些约束来简化现实世界的环境。然后我们根据竞争的特殊性对传统的基于代理的建模中的三个组件:代理、环境、交互进行了进一步的细化:代理分为竞争者和裁判两类。代理间交互分为竞争者对裁判提供的服务和裁判对竞争者的反馈。同时代理拥有自动修正和迭代的能力,使得竞争者的策略可以不断演进。
模拟运行:该步骤注意收集模拟过程中的各种信息用于之后分析。
结果分析:基于代理的建模通常通过宏观和微观两个层面进行分析,微观层面分析代理的个体行为,代理间交互。宏观层面分析系统的整体演进。
四、市场竞争环境
基于上面的框架,我们实现了一个具体的市场竞争环境:在一个小镇中,存在2家餐馆和50名顾客。我们假定所有顾客每日均需到一家餐馆就餐,顾客可以以单人或者团体形式前去就餐。而餐厅的目标就是尽可能吸引顾客。所有的代理均由GPT4来驱动。
竞争者,即餐厅代理拥有一定的启动资金,用于雇佣厨师,缴纳资金、水电费。开始运营之后,代理每日接收自家餐厅的信息,如客流量,收支,顾客反馈等,同时可以获得部分对手的信息,如客流量,评分等。基于此代理进行相应的调整,如雇佣新厨师,修改菜单、广告词等。操作完毕后这些操作总结后存入记忆成为经验的一部分。
4.2 顾客
为了模拟现实世界中顾客的多样性,我们为每位顾客赋予不同的特征,如收入、口味等。 我们也构建了部分顾客的人际关系,允许他们以团体形式就餐,例如家庭、情侣等。
顾客每日接受两家餐馆的信息,包括菜单、广告、顾客评论等,然后选择其中一家餐馆就餐(团体需要讨论后决定)并给出反馈。
4.3 菜品口味的量化公式
在本环境中,菜品口味是竞争中至关重要的一点。我们咨询餐饮行业的人员后给出如下的经验性公式:
其中 s 为菜品口味, c 为成本价, p 为售价, f 为厨师的总薪资。
五、实验结果
我们运行了9次单人实验(所有顾客以单人形式就餐)和6次团体实验(部分顾客抱团就餐)。然后从微观层面分析了代理的行为和代理间的交互和从宏观层面分析了竞争的动态过程和系统演进。
5.1 微观层面
环境感知
基于大语言模型的代理可以由浅入深地全面分析接收到的信息。
Over the past few days, American Aroma has displayed a growing trend in customer flow and income, suggesting that our strategies are resonating with the local clientele. [...] However, our dish scores have slightly fluctuated, indicating room for improvement in the consistency and complexity of flavors. [...] Our rival diner has consistently good customer scores and comments, particularly praising their BBQ Ribs Platter and Fusion Bowl. Their menu seems to strike a balance between healthiness and hearty options, [...]
上面是某次模拟实验代理分析的结果,可以看到代理首先观察了客流量、评价等浅层信息,然后基于此判断自己的策略是否成功,同时他也对对手和顾客进行了深入分析。
市场策略
我们观察到了经典的市场竞争策略:
模仿:模仿是指模拟对手的行为并与之抗衡,例如餐馆2观察到餐馆1推出了受欢迎的菜品后以推出与之类似的菜品。
差异化:差异化是指为了保持自己的独特性进行的创新行为。例如餐馆1为了强化自己的独特性推出一款新菜品
以顾客为导向:该策略是指积极发现顾客的需求,迎合这些需求以此来吸引顾客
顾客决策
顾客决策受多种因素影响,我们统计了顾客选择时的原因发布,下面是部分顾客的原因分布:
我们发现每位顾客的原因分布都有所不同。而如果将顾客分为个体和团体进行分析,可以发现两者之间存在显著不同:个人更注重餐厅的声誉,例如顾客评论评分等。团体更愿意尝试新的菜品。
竞争动态
在竞争过程中,竞争者之间出现了复杂的竞争动态。该动态由模仿和差异化两种策略构成,它们交替进行最终达成了某种平衡。
上图是一个竞争动态的实例:在第二天餐馆一推出了一道新型菜品,迅速吸引了大量顾客。餐馆二在第四天发现该策略奏效后迅速跟进推出了类似的菜品。而后餐馆二也进行了差异化的策略,推出了新的菜品,餐馆一同样进行了跟进。这样的差异化和模仿交替进行,形成了竞争动态。
该动态的一个直接结果是导致了菜单相似度的动态平衡,首先两家餐馆均为法国餐厅,菜单天然相似,而差异化减小相似性,模仿扩大相似性。最终导致了菜单相似性的动态平衡。
马太效应
马太效应简单来说就是“穷者愈穷,富者愈富”。在我们的部分实验中,出现了一家餐馆的客流量越来越大,直至占领了整个市场,另一家越来越小,趋于没有的情况。其中核心的一点在于一家餐馆在起始时占据了优势,例如更大的客流量,更好的口碑。然后据此扩大优势,形成正反馈。例如更好的口碑会吸引更多的顾客,如果餐厅服务质量较好,更多的顾客则会形成更好的口碑。
顾客抱团缓解赢者通吃
马太效应的直接结果是赢者通吃。当顾客以单人形式就餐时,赢者通吃发生的概率为66.7%,而当顾客抱团前去就餐时概率降低为16.7%。我们认为概率的降低可能是因为团体就餐时更愿意尝试新事物,给弱势餐厅一方提供了翻身的机会。
竞争促进产品质量提升
在整个竞争过程中,两家餐馆的菜品口味平均分数均提高了0.2以上。有86.67%的概率至少有一家餐馆的菜品口味会提升。这说明竞争会促进产品质量的提升。
上面两方面的发现均很好地对应到了现有的一些理论。且这些发现出现的频率很高,这说明他们的出现并不是偶然。
六、未来方向
加入图片等其他模态的信息使得模拟更加真实
将餐馆的数量增加,观察餐馆数量对结果的影响
运行餐馆之间相互交流,探究餐馆之间的合作
[1] Hien Thu Phan, Sajid Anwar, W. Robert J. Alexan der, and Hanh Thi My Phan. Competition, efficiency and stability: An empirical study of East Asian commercial banks. The North American Journal of Economics and Finance,50:100990,November 2019. ISSN10629408. doi: 10.1016/j.najef.2019.
[2] Thomas Markussen, Ernesto Reuben, and Jean-Robert Tyran. Competition,cooperation and collective choice. The Economic Journal,124(574):F163–F195,2014.
[3] Euel Elliottand LDouglas Kiel. Exploring cooperation and competition using agent-based modeling. Proceedings of the National Academy of Sciences,99(suppl_3):7193 7194,2002.
作者:王晋东 来源:公众号【王晋东不在家】
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴