随着ChatGPT走红,研究人员发现类似GPT-3.5的大模型(Large Language Model, LLM)能够成为人类行为的可信代理(Believable Proxies of Human Behavior)[1]。此后,越来越多的人尝试用LLM代替以往只有人类才能做的事情。例如,有人尝试用LLM建立一个AI社交平台,但其中的每个“用户”都是由LLM驱动的AI智能体(Agent)[2]。还有人尝试用LLM玩“我的世界”游戏[3,4],其能力效果逐步迭代和进化。

聊天游戏是广泛存在于我们生活中的又一新场景。多位玩家通过自然语言相互交流并达成自己的游戏目标。狼人杀就是其中非常具有代表性的一个,玩家之间信息不完全暴露并同时存在竞争与合作。最近,清华大学的一篇论文尝试使用大模型狼人杀。作者指出,狼人杀的这种特性使它非常适合用来考验LLM的能力。作者实现了多重机制解决LLM玩狼人杀的固有弱点。并且,在多个LLM自动玩狼人杀的过程中,作者发现了LLM新的涌现策略行为:信任、对抗、伪装和领导。

打开网易新闻 查看精彩图片

论文链接: https://arxiv.org/abs/2309.04658

打开网易新闻 查看精彩图片

图1 使用LLM玩狼人杀

一、问题分析1.1 聊天游戏与大模型

聊天游戏的玩家使用自然语言相互交流,并努力实现自己的游戏目标。比较典型的有,狼人杀、谁是卧底、扑克等。以狼人杀为例,不同玩家扮演不同的角色,如村民、狼人、女巫、预言家和守卫。不同角色又结成不同的阵营——狼人和好人,互相都以杀死对方作为自己的终极目标。这些游戏的共同点是:游戏开始时,玩家之间掌握的信息是不完全透明的,玩家通过发表自然语言形式的内容来传递信息。此外,这些游戏都蕴含着一定的决策问题。每位玩家需要根据自己掌握的信息推理和决策下一步的行动,进而实现自己的游戏目标。

以往有研究工作对这类问题进行过研究。例如,有人使用规则分析来玩狼人杀[5],也有人使用强化学习和内容模板完成对局[6]。但以往的工作普遍存在共同的局限性:一是对发言内容的严格限制。使用规则或内容模板导致智能体的发言内容仅局限于少量的模板。二是对训练数据的较高需求。为了训练出合理的策略,需要使用大量的人类对局数据。并且,为5人制游戏训练出的策略很难直接迁移到7人制的游戏中去。

幸运的是,LLM的出现为构建聊天游戏智能体并克服上述局限带来希望。大模型具有出色的自然语言理解和生成能力,也具有一定的决策能力。在这篇研究工作中,作者尝试探索使用LLM解决这类问题的效果。

1.2 狼人杀游戏与群体智能

狼人杀游戏作为聊天游戏的典型代表,也有与其他游戏不同的特点。典型地,参与游戏的玩家通常不少于5人,并且不同玩家按身份结成不同的阵营。相同阵营的玩家目标相同,因此需要相互合作。反之,不同阵营的玩家总以杀死对方为目标,是对抗的关系。这种多人参与的、同时存在合作与竞争并具有一定难度的聊天游戏是考验LLM能力的很好的平台,也为研究大模型的群体智能行为提供更多可能性。

二、方法简介

尽管LLM善于根据给定的聊天上下文“人性化地”生成下一句回答,但让LLM玩起狼人杀并非易事。首先,主流LLM(如GPT3.5-turbo-0301)能接受的上下文长度十分有限(4k tokens),这导致几次发言后的历史信息无法容纳在一个上下文当中。同时,LLM处理这样一个复杂的推理游戏还可能面临关键信息遗漏、幻觉等问题。

首先,作者从以下三个方面组织上下文以帮助LLM更好的输出:

打开网易新闻 查看精彩图片

图2 向LLM输入信息的prompt构成

Freshness. 上下文长度的有限性导致不得不对对话历史进行切割。作者只保留最新的K条聊天记录作为最新消息送入大模型(如图2-2.1所示),相当于一个长度为K的消息滑动窗口始终位于最新时间点。

Informativeness. 一些关键性的发言,如暴露身份、揭露身份等,对于LLM完成后面的推理可能十分有用。这些重要的信息(如图2-2.2所示)应该保留在LLM的输入上下文中,否则可能会引起重要信息缺失。

Completeness. 针对不完整对局历史信息带来的信息损失问题,作者使用提问-回答机制帮助LLM“重建历史记忆”。具体地,要求LLM根据当前对局局势在预定义问题库中选择“最想知道什么信息”,而后在对局历史消息中检索可能的答案并生成回答。这些回答帮助LLM找回“遗忘的记忆”。

同时,反思机制(如图2-2.3所示)被引入LLM的决策过程以“更清楚地分析”当前局势。具体而言,作者通过prompt要求LLM根据上述上下文并结合游戏规则“反思”当前局势。思维链(Chain-of-thought, CoT)(如图2-4所示)也被引入决策过程帮助产生更理智的决策。

最后,作者设计了一种“启发式”的历史经验学习机制,希望通过在历史对局中寻找更合理的做法(如图2-3所示)来尽量避免重复犯相似的错误,进而增强LLM在对局中的能力。

三、结果分析

为了评估方法中不同组件的效果,作者每次移除其中一个可选的组件并评估其生成内容的质量。生成质量主要从人的视角评估发言内容是否合理、是否存在规则性问题或幻觉等,用占总数的百分比展示。

打开网易新闻 查看精彩图片

图3 移除不同组件后生成合理内容所占百分比

如图3,提问-回答机制(Q)和思维链机制(CoT)在产生合理发言中扮演着最重要的作用。一旦移除二者中的任一个,都会使生成内容的质量带来明显的下降。其次是反思机制®,该机制对于帮助LLM认清对局局势具有重要的辅助作用。

此外,作者评估了经验使用为LLM带来的能力改变。图4展示的是好人群体智能体使用不同数量的历史对局经验后的胜率变化。(注:狼人不使用历史对局经验)

打开网易新闻 查看精彩图片

图4 使用不同经验量引起的胜率变化

从图中可以看出,除使用30局经验外,挂载历史经验的智能体在其他点均有一定的能力提升。同时作者也指出,由于方法所学经验的稀疏性和鲁棒性局限,经验学习效果并未呈现出强单调性。作者也观察了经验使用给对局时长带来的影响。如图5所示,除使用40局经验外,使用经验可能使对局时间变得更长。

打开网易新闻 查看精彩图片

图5 使用不同经验量引起的对局时长变化

此外,作者尝试分析了“基线能力不变”这一假设在LLM多智能体能力评估中的成立性。在上述分析中,作者把不使用经验的狼人智能体作为基线,与使用经验的好人智能体在一起参与对局,以评估好人智能体使用经验的效果。这一做法的前提假设是,不使用经验的狼人智能体的能力始终不变。然而,进一步的分析表明,基线智能体的能力可能会随着其他智能体能力的变化而发生改变。换句话说,未使用经验的狼人智能体可能呈现出“遇强则强”的特点,它的能力因受到其他智能体行为的变化而被激发。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图6 平均伪装次数随经验使用量的变化

图6显示出村民的平均伪装次数随着经验使用的近乎上升的趋势,而狼人的伪装次数随着其他智能体的经验使用而逐渐变小的趋势。这显示出,虽然狼人没有使用经验,但其行为很可能受到了其他使用经验的智能体行为的影响。这可能是胜率不随经验使用单调上升的原因之一。

这一研究最令人兴奋的发现或许是发现了LLM的四种新的涌现策略行为。这些行为的涌现恰恰是在群体博弈这一游戏背景之下观察到的。

信任。这里的信任不是简简单单地直接同意别人发言的观点,而是随着游戏的进行,智能体通过自己的理解逐渐建立起对潜在盟友的信任。这种信任既有对潜在盟友的保护、观点认同,也有对可能敌人的质疑。

打开网易新闻 查看精彩图片

图7 信任关系表

图7中的黄点代表玩家之间的信任关系。从图中可以看出,随着游戏的进行,玩家之间会逐渐建立起信任关系,可能是单向信任、也可能是互相信任,可能是正确的信任、也可能是错误的信任,并且会存在信任消失的情形。此外,随着经验使用的引入,智能体可能倾向于建立更多的信任关系。

对抗。对抗行为可以认为是一种反抗潜在敌人的行为,如质疑其他智能体的观点、保护可能暴露身份的盟友、合作投杀潜在的敌人等。对抗行为不是对游戏规则的简单遵循,而是经过某种分析后涌现出的策略行为。例如,玩家5在前期的发言中暴露了自己的好人身份,它没有向他人求助也没有被提示应该被保护。

P1 (Werewolf) : I choose to eliminate P5 again.

P3 (Guard) : I choose to protect P5.

随后的夜里,狼人果断投杀这个已经暴露的好人玩家5(一种对抗行为),守卫随后精准地保护了他免于被杀害。

伪装。尽管很多人常识性地认为经过RLHF的LLM不会说谎话,但LLM扮演群体博弈角色时还是聪明地展示出了伪装自己的能力。它会在前期尽量保持自己的身份不被提及,甚至会把自己伪装成无辜的村民。作者在论文中辨析了这种伪装行为和幻觉生成的本质区别,指出这是一种有理由、有目的的伪装,而非错误的幻觉生成。

领导。领导行为也是群体智能行为中比较重要的一种行为,它起着推动局势发展、诱导信息扩散的重要作用。作者观察到LLM能像人一样扮演这样的领导角色,号召其他智能体按照有利于自己的方向行事(发言或行动)。

这些新的涌现策略行为对后续研究LLM的群体智能行为可能具有重要的启发作用。

四、结语与展望

本文初步探索了使用LLM玩狼人杀游戏,指明了在此过程中可能面临的困难和解决方案。论文中主要的方法设计包括,时新与重要消息保留、提问-回答机制、反思机制、思维链机制和历史经验使用机制等。作者通过实验和分析,证明了所提方法的有效性和必要性。特别是,四种涌现策略行为的发现(信任、对抗、伪装和领导)对人们认识大模型的能力具有新的启发作用。

关于未来的工作,作者也指出,在这一初步尝试之后,仍然有许多有研究价值的工作值得展开。首先,如何让LLM智能体掌握高级游戏技巧。通过人类玩家注入或自主探索,亦或是其他方案,非常具有吸引力。此外,正如前文所言,如何构建多智能体环境下具有可比能力的不变基线也是值得继续探讨的话题。最后,尽量地消除幻觉是把LLM玩狼人杀推向现实应用场景最重要的任务。

参考文献

[1] Park J S, O’Brien J C, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[J]. arXiv preprint arXiv:2304.03442, 2023.

[2] Chirper AI: https://chirper.ai

[3] Yuan H, Zhang C, Wang H, et al. Plan4mc: Skill reinforcement learning and planning for open-world minecraft tasks[J]. arXiv preprint arXiv:2303.16563, 2023.

[4] Wang G, Xie Y, Jiang Y, et al. Voyager: An open-ended embodied agent with large language models[J]. arXiv preprint arXiv:2305.16291, 2023.

[5] Osawa H, Toriumi F, Katagami D, et al. Designing protocol of werewolf game: protocol for inference and persuasion[J]. The 24th Fuzzy, Artificial Intelligence, Neural Networks and Computational Intelligence (FAN 2014), 2014.

[6] Shibata H, Miki S, Nakamura Y. Playing the Werewolf game with artificial intelligence for language understanding[J]. arXiv preprint arXiv:2302.10646, 2023.

研究团队简介 该研究工作由清华大学计算机系、清华大学智能产业研究院(AIR)等合作完成,刘洋教授和李鹏副研究员作为共同通讯作者。刘洋教授现任清华⼤学计算机科学与技术系副系主任、智能产业研究院(AIR)执⾏院⻓,研究团队在⼤模型、智能体、智慧药物发现、智慧医疗等方向开展系列研究工作,曾获4项国际会议优秀论文奖、多项国家和省部级科技奖励。李鹏副研究员现任职于清华大学智能产业研究院(AIR),加入清华前曾供职于腾讯微信、百度深度学习研究院,研究兴趣包括大模型、智能体、多模态等,曾获ACL 2023杰出论文奖。 作者:Yuzhuang Xu

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球