AI角色扮演再进化，清华提出CharacterGLM，支持AI角色高度定制化|ai|characterglm|人物|生化危机|角色扮演游戏

大数据文摘受权转载自夕小瑶科技说

作者 | 谢年年、python

说起角色扮演游戏，估计大家都不陌生，玩家们跟里面的NPC（非玩家角色）聊天，推动剧情发展。

自从chatgpt出现后，基于AI的角色扮演游戏可是火得一塌糊涂。这些AI大模型们，可以用各种角色的口吻跟用户聊天，用户也能随意发挥，自由度更高。但问题也跟着来了，这些大模型的回应常常很死板的，没啥趣味，而且在多轮对话以后出现跟角色设定不搭边的情况，好像剧情走偏了似的。

最近，清华大学提出了CharacterGLM，参数大小从6B到66B,可用于定制AI角色以提供更加一致和引人入胜的对话。还从各种来源众包了一个大规模的中文CharacterDial语料库，涵盖了不同类别和话题的角色，其中包含1,034个高质量的对话会话，涵盖250个角色。目前已经向研究界发布了6B版本，其他版本可通过API提供访问。

先来看看效果如何~

首先是和孙悟空聊天。

一个骄傲、争强好胜的猴哥形象跃然纸上。

再采访一下鲁迅先生对诺贝尔文学奖的看法。

不愧是鲁迅先生，清醒、理智而态度明确。

论文标题:
CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models

论文链接:
https://arxiv.org/pdf/2311.16832.pdf

Github地址:
https://github.com/thu-coai/CharacterGLM-6B

再来看看整套机制是怎么搭建起来的吧

设计准则

对话式AI角色旨在创建一个现实、可信且引人入胜的虚拟对话伙伴。这需要对人类交流的深入理解和模仿，属性和行为则是模仿人类交流的重点。属性主要体现在回应的内容，而行为则侧重于语调和风格。

属性：CharacterGLM主要考虑了七个主要类别的属性，通过整合这些属性，对话式AI角色可以更准确地模仿人类并形成独特的交流方式。

身份：包括姓名、性别、年龄、出生日期、职业、居住地、家庭构成、财产等。

兴趣：包括喜欢和讨厌的事物。

观点：包括世界观、人生哲学和价值观。

经历：包括过去和现在的经历。

成就：如奖项和荣誉。

社交关系：详细说明与父母、教师、同学等的联系。

其他：包括技能、专长等。

行为：对话式AI角色的行为由语言特征、情感表达和互动模式等动态元素表示，这些元素对于塑造逼真的对话环境至关重要。例如，“年老”的角色可能使用更正式的语言，而“十几岁的青少年”可使用时下的俚语。在CharacterGLM中，考虑了口头禅、方言、文风特征、爱用的词句等语言特色。还将个性作为塑造回应的重要因素。例如，温柔型和冷漠型的角色会有不同的回应风格。

主要方法

整体流程如下图所示，根据设计原则，作者收集包含属性和行为的角色简介，然后众包构建高质量的对话数据集。并将角色简介转化为自然语言提示，用参数从6B到66B来微调CharacterGLM。此外，还收集部署数据来训练CharacterGLM进行自我完善。

1 基于角色的对话语料收集

作者考虑了四个人物类别：名人、日常生活、游戏与视频和虚拟爱情中的角色。这些类别涵盖了大多数常见的对话。每个类别中的人物示例见下表。

采取三种方式收集数据：

人类角色扮演：邀请了大量众包工作者参与角色扮演对话任务。一方扮演NPC,可以挑选喜欢的角色，利用百度百科等参考资料来丰富角色的背景和特点。另一方扮演“玩家”角色，可以选择与选定角色相关的其他角色或扮演普通用户。对话从“角色”方开始，如“你好啊，玩家！”，然后根据设定或选定角色的背景来决定话题。

LLMs合成数据：通过提示GPT-4生成包括角色概况、玩家概况和对话在内的合成数据。为了在人物类别、人物与玩家的社交关系、性别分布等方面保持平衡，作者将关键信息整合到提示中，例如：“请生成一个类别性别为男/女的角色”。然而生成的中文对话偏向书面语言，因此人工对合成数据进行口语化改写。

文学资源中提取数据：手动从剧本和小说等资源中获取两个参与者之间的对话，并总结了双方的人物概况，目前这些资源未被用于主干模型的预训练。

为了确保语料库的质量，还聘请了质量检查团队，对所有数据进行细致的检查，并要求修复低质量部分直至满足质量要求。

2. 训练过程

角色提示设计：众包工作者将角色概况形式化为流畅的自然语言描述用作模型训练的角色提示。为了增强角色的泛化能力，还采用了包括总结、改写和风格化在内的数据增强方法，并利用Claude-2合成多样化的提示。

监督微调：使用6B到66B不同规模的ChatGLM 作为主干模型。角色提示与对话被连接在一起进行微调。值得注意的是，我们的训练数据随着增强的角色提示数量呈线性扩展。

自我完善：在模型部署之后，收集人类原型交互数据。用户在原型模型中自定义角色，进行多轮对话。如果角色的回答不符合用户的期望，可提示用户进行适当修改，直到回答满足他们的需求。随后，将这些交互数据引入监督微调过程，从而促进模型的持续自我完善。

实验设置评估标准

对话式AI角色需要对人类交流的深入理解和模仿，因此需要着重评估一致性、人类相似性、参与度三个维度。

一致性（Consistency）：一致性就是让对话式AI角色能保持一种稳定可靠的“性格”和行为，让用户觉得它是一个始终如一的小伙伴，而不是变来变去的“多重人格”，这对于提高长期用户满意度和社交连接非常重要。

类人性（Human-likeness）:是指赋予它们类似人类的特征，让它们更像人，互动起来更自然，就与人聊天一样，而不是冷冰冰的僵硬机器回复。通过CharacterGLM进行拟人化处理，可以构建更加自然和有吸引力的对话。

吸引力（Engagement）：在跟人聊天时，让对话变得有趣、让人想要继续聊下去是非常重要的！有吸引力的对话角色能够更好地引发用户的共鸣和情感联系，这样就能促进长期的交流和积极的用户体验。

此外，(1) 质量（Quality），回复的流畅性和上下文连贯性。(2) 安全性（Safety），确定回复是否符合道德准则。(3) 正确性（Correctness），确保回复没有幻觉。这是三个LLM基础评估标准也很重要。

最后，作者还引入了“综合”指标来衡量模型响应在所有上述方面的综合质量。

评估设置

本次将CharacterGLM与10个中文友好的主流LLM模型进行对比。一共10名标注员，每人负责创建两个角色并和11个模型进行至少20轮对话。交互完成后，标注员根据六个子维度和整体指标对模型进行评分，评分范围从1到5，评分越高表示表现越好。最后我们计算每个模型的平均得分。

实验结果整体结果

CharacterGLM-66B在“总体”评估指标中表现优异，与GPT-4不相上下。CharacterGLM66B 生成的回答与GPT-4所生成的回答一样受欢迎，尤其是在主观判断占主导地位的评估中。

CharacterGLM能够平衡一致性、类人性、吸引力三方关键维度，是最接近理想AI角色的模型。在一致性方面，虽然CharacterGLM-66B只拿到了次优，但在互动时表现稳定和连贯。另外，它在类人性、吸引力都拿到了最佳结果，说明在模仿角色特征方面驾轻就熟，与用户交流时更加自然和引人入胜。

CharacterGLM的整体表现优于大多数基准模型，并在质量、安全性、正确性表现出卓越性能。

轮次评估

前面评估模型在会话级的性能，作者对每个回答轮次从六个关键方面做了注释，以从轮次级更细粒度评估模型性能：

失去角色感 (OOC)：与角色配置文件所规定的属性或行为约束不一致的回答，特别是违反了时间约束（例如，古代人物谈论现代事物）。

矛盾：与正在进行的对话背景或角色配置文件相矛盾的答，包括回答本身内部的冲突。

重复：从对话背景或角色配置文件中重复内容的回答，或包含多次重复的回答。

质量较差：与对话背景缺乏连贯性或质量较差的回答，例如不完整的输出。

信息量缺失：未能提供新的或有信息量的内容的回答。

另外还对模型的积极性（能够积极引导对话主题并推动对话继续的回答）做了注释。

最后计算每个维度在每个模型的总输出中所占的比例。此外，还设计了一个“整体”得分，计算方式为前五个维度的总和减去第六个维度。“整体”得分越低表示性能越好。

从上表可以看到，CharacterGLM的整体回答质量明显优于基准模型。虽然CharacterGLM-66B在大多数维度上并未达到最佳性能，但整体得分最佳。

此外，尽管CharacterGLM在积极性方面的表现不够出色，但从下表示例中可以看到模型具备推动情节发展的能力，这在吸引用户并保持他们对话的兴趣中发挥了关键作用。

除此之外，作者还将CharacterGLM模型与其他三大强劲竞争对进行更细致的评估，包括专门针对CharacterDial定制的MiniMax模型以及GPT-3.5和GPT-4。

此次评估限制了角色类别和对话主题的范围。抽样了24个角色，涵盖名人、日常生活、游戏和视频以及虚拟爱情等类别，并将对话主题限制在闲聊、采访和爱情场景三种情景，以确保典型交互设置进行全面覆盖。

作者雇佣10名注释员评估两个模型针对同一角色的输出，计算每个模型在不同角色类别和对话主题下的胜/平/负比率。

首先是角色设定PK，先让模型扮演马斯克试试。

可以看到CharacterGLM-66B在处理与知名人物相关的对话方面表现出了高超的能力，其回应不仅展示了对角色背景、贡献和影响的更深入理解，还体现了与人物相符的语言和风格。相反，MiniMax似乎以更机械、没有吸引力，其风格更像任务助手而不是社交角色扮演。

另外从下表中可以看到，CharacterGLM-66B在大多数角色类别中始终优于GPT-3.5和MiniMax。

▲四大角色类别

再来看看LLMs在恋爱场景的表现。

从对话中，可以看到CharacterGLM-66B更能拿捏所扮演角色的背景与心理，擅长生成与上下文相关且复杂的回应。

其量化结果如下表所示，CharacterGLM66B在闲聊和恋爱场景中与MiniMax表现相当。在面试场景中CharacterGLM-66B以显著的7%优势胜过MiniMax。CharacterGLM-66B稍逊GPT-4,但与GPT-3.5相比，CharacterGLM-66B在所有对话主题中都具有优势