打开网易新闻 查看精彩图片

这项由南京大学与字节跳动联合开展的研究,以预印本论文形式于2026年3月20日发布在arXiv平台,论文编号为arXiv:2604.13074v1,分类于计算机科学的计算与语言(cs.CL)方向。有兴趣深入了解的读者可以通过该编号直接查询完整论文。

你有没有跟AI助手聊天聊到一半,发现它完全不记得你上次说过什么的经历?你告诉它你不喜欢喝咖啡,结果下周再聊,它还是热情地给你推荐拿铁。你跟它分享过你是一个性格内向、容易焦虑的人,但当你说今天压力很大时,它依然用那种充满活力的语气喊你"去派对认识新朋友吧!"——这感觉就像跟一个每次见面都把你忘干净的人在交流。

这不是个小问题。随着AI助手越来越深入地参与人们的日常生活——帮你做计划、聊心情、提建议——这种"健忘"和"一刀切"的回应方式,正在成为一个越来越令人沮丧的障碍。南京大学字节跳动的研究团队正是注意到了这个痛点,于是开发了一套名为PersonaVLM的框架,专门让多模态大语言模型(就是那种既能看图又能对话的AI)变成一个真正了解你、记住你、并能随着你的变化不断调整自己的私人助理。

一、为什么现在的AI助手总是"失忆"又"刻板"

要理解PersonaVLM解决了什么问题,得先搞清楚现在的AI助手究竟哪里出了毛病。研究团队把现有的个性化方法归纳为三类,并指出了每一类的根本缺陷。

第一类叫"适应型"方法,原理是针对每个用户单独训练或微调模型,让模型把用户的习惯直接"烧录"到自己的参数里。代表作是MyVLM和Yo'LLaVA,它们能让AI从认识"一只狗"升级到认识"你家的狗旺财"。但问题在于,每来一个新用户,或者用户的习惯发生变化,就得重新训练一次——这种代价太大了,根本无法大规模推广,更无法追踪用户偏好的演变。

第二类叫"增强型"方法,思路是给AI配备一个外部数据库,把用户说过的话存进去,需要时再检索出来。RAP等系统属于这类,它们不需要重新训练模型,相对灵活。但致命的弱点是:这个数据库是人工预设好的,AI不会主动思考"这件事值不值得记下来",也不会随着对话主动更新记忆。更麻烦的是,直接用关键词搜索记忆会产生"语义漂移"——你问"那天我们聊的那件事",系统根本不知道你指的是哪件事。

第三类叫"对齐型"方法,目标是让AI的回复风格符合用户的个性。ALIGNXPERT和PAS都属于这个方向,但它们的问题在于把用户性格当成一个固定标签,一旦贴上"外向型"的标签就一直用下去。可现实是,人的性格是流动的——一个在工作场合表现得雷厉风行的人,私下可能敏感细腻;一个年初开朗爱社交的人,年末可能因为某件事变得内敛焦虑。

研究团队用一个非常形象的例子说明了这三类方法会同时失败的场景:用户在5月底说自己喝雪碧缓解夏季焦虑,6月初又说最近更喜欢喝可乐来平复情绪。7月中旬当用户再次表达压力很大时,增强型系统仍然从数据库里翻出"雪碧"这条旧记录,推荐了已经过时的选择;而对齐型系统则用热情洋溢的语气喊那个内向、高神经质的用户"去主动结交陌生人"——完全不顾这对他来说简直是噩梦。

由此,研究团队明确提出了长期个性化需要同时解决两根支柱:一是能主动构建和维护动态用户记忆的架构;二是能利用这些记忆进行推理、并生成与用户当下性格真正对齐的回应的能力。

二、PersonaVLM的核心设计:一套会"认识你"的记忆系统

PersonaVLM的整体架构建立在一套专门设计的个性化记忆系统之上,这套系统存储两大类信息,就像一个了解你的老朋友同时维护着两本关于你的手册。

第一本手册叫"用户性格档案",用五个维度的数值来描述你的性格——这五个维度来自心理学界广泛认可的"大五人格模型",分别是开放性(你有多愿意尝试新事物)、尽责性(你有多有条理有纪律)、外向性(你有多喜欢社交)、宜人性(你有多友善合作)、和神经质(你有多容易焦虑紧张)。每个维度的分值在1到5之间浮动,构成一个五维的数字向量,代表AI对你性格的实时认知。

第二本手册是"多类型记忆数据库",分为四个格子。第一个格子叫"核心记忆",存的是你最基础的个人信息,比如名字、年龄、职业、兴趣偏好,以及你希望AI以什么风格和你互动——这个格子里的内容会随着新信息的出现直接覆盖旧版本,永远保持最新状态。第二个格子叫"语义记忆",存的是与时间无关的稳定知识,比如"用户对猫过敏"、"用户曾提到失业"、"用户喜欢极简风格的设计",还包括用户分享过的图片中具体的视觉元素,比如"朋友小明(附上图片中小明的裁剪图)"。第三个格子叫"情节记忆",存的是按时间轴组织的对话片段——每次对话结束后,AI会把整段对话按话题分割,给每个话题写一个摘要、提取关键词、并记录这段对话的轮次索引。原始对话永远不会被删除,情节记忆只是一个快速定位的索引层。第四个格子叫"程序记忆",专门记录你的长期目标和重复性习惯,比如"用户每周四早上跑步"、"用户正在写一本小说,目前完成了第三章"。

这套记忆系统的存储和更新策略非常精妙。语义记忆和情节记忆是纯粹累积的——新内容只增不减,历史记录完整保留,就像在日记本上不断添页,从不撕页。而核心记忆和程序记忆则是"最新优先"——只保留最新版本,就像用最新的地图替换旧地图,避免过时信息干扰判断。

三、两阶段运作:从"回应你"到"认识你"的完整循环

PersonaVLM的实际运作分为两个阶段,像一个不断学习的循环。

每当你发来一条消息(可以是文字,也可以带图),第一阶段"回应阶段"就启动了。AI首先会看到你的消息、近期的对话记录、你的核心记忆和当前的性格档案。然后它开始一个非常关键的自主推理过程:先判断手头的信息够不够回答你的问题。如果够,直接给出回答;如果不够,它会主动发起一次记忆检索请求,在请求中指定两个参数——关键词和时间范围。

时间范围这个设计非常有意思。普通的RAG系统只管关键词匹配,而PersonaVLM意识到人们说话经常带时间线索,比如"上个月"、"那次出差之前"、"我妈生日那天"——这些线索对精确检索至关重要。AI会先根据时间范围圈定候选记忆,再在这个范围内对语义记忆、情节记忆和程序记忆三个格子分别并行搜索,各自取出最相关的若干条。检索结果回来后,AI继续推理,判断是否需要再检索一轮,或者已经可以给出回答。整个推理和检索过程可以迭代最多三次,就像侦探在案发地点反复勘查,直到找到关键线索才合上笔记本。

这种设计解决了一个人们通常没意识到的难题:用户的问题经常包含指代词,比如"那个东西我还需要买吗"、"你还记得我说的那件事吗"——这种问题用直接语义匹配根本找不到,必须通过上下文推理来确定"那个东西"指的是什么,然后再去检索。

检索到的文字记忆用的是一个叫all-MiniLM-L6-v2的句子编码器,把所有记忆转换成数字向量,再用FAISS这个高效向量搜索库快速找到最相关的条目。如果你发来了图片,系统还会自动触发视觉检索:先用Grounding DINO这个目标检测器从你的图片中找出各种物体,然后用CLIP这个图文对齐模型把这些物体和记忆库里存的视觉概念做相似度比较,从而识别出"这张照片里是你的朋友小明"。

在回复生成时,AI会把你的性格档案作为核心指令,调整回复的语气、风格和内容方向——对高神经质的用户给予安抚和稳定感,对低开放性的用户给出务实具体的建议,而不是充满奇思妙想的发散性回答。

回复发出之后,系统进入第二阶段"更新阶段",这个阶段在"闲置时间"异步进行,不影响你下一条消息的响应速度。更新阶段做两件事:更新性格档案,以及更新记忆数据库。

性格档案的更新通过一个叫做"人格演化机制"(PEM)的算法完成。AI会从你刚才那条消息的语言风格和情绪线索中,推断出一个临时的五维性格评分。然后用一个叫"指数移动平均"的公式,把这个临时评分与历史积累的长期性格档案做加权融合:新档案 = λ × 旧档案 + (1-λ) × 临时评分。这里的λ是一个动态调整的系数,在你们刚开始互动时λ值比较小,意味着每次新输入对档案的影响更大,AI学得很快;随着交互轮次增加,λ慢慢升高,档案趋于稳定,不会因为你某天说话风格偶尔不同就剧烈波动。这个设计的逻辑是:了解一个人需要大量样本,早期每条信息都很宝贵,而建立了深度了解之后,偶尔的异常不应该推翻已有的认知。如果某次AI推断出的临时性格评分全是中性值3,这次更新会被跳过,避免无意义的对话污染性格档案。

记忆更新则对四种类型分别处理:语义记忆在每轮对话结束后立即更新,提取新出现的偏好、明确要记忆的内容和新认识的人或物;程序记忆和核心记忆在每次会话结束后批量更新,AI会审视整段会话来决定是否新增、修改或删除某条记录;情节记忆则通过把整段会话按话题分割,为每个话题生成摘要、关键词和对应轮次索引,追加到情节记忆库中。

四、如何从零训练出这样一个系统

要让PersonaVLM真正学会上述所有能力,研究团队需要大量高质量的训练数据。现有的数据集普遍存在三个缺陷:只有文字没有图片,只有短对话没有长期互动,以及没有关于记忆管理和性格推理的监督信号。于是团队从头构建了一条数据合成流水线。

流水线的起点是从PersonaHub(一个包含十亿规模人物设定的公开资源)中抽取700个虚拟人物,再为每个人物随机分配大五人格分数,生成详细的角色描述和初始核心记忆。接着用商业级别的Seed1.6-thinking模型,模拟这些虚拟用户与AI进行长达数百轮、跨越数周到数月的对话。为了让对话更真实,流水线会概率性地触发偏好转变事件(比如原本喜欢雪碧的用户某天因为看了一篇文章开始偏向可乐)、话题跳转和性格演变。超过15%的对话包含图片交互,覆盖从专业工作讨论到日常闲聊的广泛场景。最关键的一点是,生成过程不仅产出对话内容,还同步产出中间的推理步骤、检索决策和记忆更新操作,为模型训练提供了极其丰富的监督信号。

最终数据集包含700组长期对话,其中500组用于训练,200组留给测试,训练集对话长度在20到100轮之间,测试集则更具挑战性,设计了两个难度档:20到100轮对应32k上下文窗口,100到500轮对应128k上下文窗口。这种设计使得测试数据比训练数据更长、更复杂,能够真正检验系统的泛化能力。

整个数据集还经过了两轮质量审查:第一轮是自动化过滤,包括规则检查(时间戳是否符合时序、情节记忆的轮次索引是否完整)和模型自检(内容是否安全连贯);第二轮是人工审核,4名标注人员仔细排查错误、无意义或重复的对话,整个人工审核过程耗时约40人时。

有了数据之后,PersonaVLM以Qwen2.5-VL-7B这个多模态大语言模型作为基础,进行两阶段训练。第一阶段是监督微调,用7.8万条样本训练模型掌握记忆管理的基本功——包括怎么推断性格、怎么执行各类记忆的增删改查操作、以及怎么生成有完整推理链条的答案。这一阶段让模型具备了清晰输出推理过程和检索指令的基础能力。第二阶段是强化学习,使用GRPO算法(一种改进版的强化学习策略优化方法)进一步强化多轮推理和检索的质量。训练时,模型对每个样本会生成6条不同的推理路径,然后用三个奖励函数来评分:答案准确性、推理过程与最终答案是否逻辑自洽、以及输出格式是否规范。评分由Qwen3-30B-A3B这个更大的模型担任裁判。整个两阶段训练在8块NVIDIA H800 GPU上完成,总耗时约8小时(监督微调2小时,强化学习6小时)。

五、全面评测:PersonaVLM表现如何

为了评估PersonaVLM的性能,研究团队做了三件事:参加已有的评测基准测试、引入自建的Persona-MME基准测试、以及进行开放式生成质量的定性评估。

已有基准方面,团队在PERSONAMEM上进行了测试,这是一个专门设计来评估AI追踪用户偏好演变能力的基准,包含七类任务:回忆用户分享过的事实、提出新建议、确认用户最新偏好、追踪完整偏好演变、回顾偏好变化的原因、提供符合偏好的推荐,以及综合评分。测试分32k和128k两种上下文长度。在32k设置下,PersonaVLM相比基础版Qwen2.5-VL-7B(加了RAG检索的版本)提升了10.86个百分点,比GPT-4o高出17.3个百分点。在更具挑战性的128k设置下,PersonaVLM依然比GPT-4o高出2.0个百分点,这在面对如此长的对话历史时是相当可观的优势。

研究团队还特别关注到了一个反直觉的现象:在短上下文(32k)场景下,给模型加上RAG检索反而会让偏好理解任务的表现下降最多9.33%,而在长上下文(128k)场景下,RAG则带来4.53%的明显提升。这说明,当对话本身已经足够简短时,强行检索会引入噪声;只有当对话长到超出模型直接处理能力时,检索才真正发挥价值。

自建的Persona-MME基准是这次研究的另一大贡献。研究团队基于200个虚拟人物,构建了超过2000道测试题,覆盖七个核心维度和14项细粒度任务。七个维度分别是记忆、意图、偏好、行为、关系、成长和对齐,每个维度下又细分为具体任务,比如视觉细节回忆(你能记住我之前分享的照片里那件东西是什么颜色的吗?)、最新偏好识别(当用户近期行为与之前言论矛盾时,以行为为准)、隐式意图推理(用户没明说但言下之意想要什么?)、行为模式识别(用户每次遇到类似情况会怎么做?)、长期目标追踪(那个项目进展到哪了?不确定时也要能答出"目前不清楚状态")、人际关系识别(在用户多次提到的朋友中,谁出现得最频繁?),以及性格对齐(这条回复是否真的符合这个用户的性格?)。每道题还有32k和128k两个难度档,总测试案例超过2034道。

在128k配置的Persona-MME上,PersonaVLM以77.08分排在所有测试模型中第二,仅次于GPT-5(82.95分),超过GPT-4o(71.90分)5.18个百分点,也超过了规模更大的InternVL3-38B(66.01分)和语言能力出色的Qwen3-30B-A3B(72.65分)。在与基础版Qwen2.5-VL-7B(54.62分)相比,PersonaVLM提升了整整22.46个百分点,这个提升幅度尤其集中在"成长建模"和"性格对齐"两个维度上,说明PersonaVLM的核心设计确实在这些最难的任务上产生了显著效果。

在性格对齐专项评测方面,团队还引入了P-SOUPS基准,这个基准包含1800道题,每道题给出一段对话、一个用户性格描述、一条对齐的回复和一条不对齐的回复,让模型选择哪条更合适。PersonaVLM在这个测试中的整体得分比次优模型高出2.46个百分点,在风格维度(即回复语气和表达方式是否符合性格)的提升尤为明显,比基础版提升超过12个百分点。

开放式生成质量测试则用Gemini-2.5-Pro作为自动裁判,对PersonaVLM和三个对比模型(GPT-4o、InternVL3-8B、Qwen2.5-VL-7B)的回复进行两两比较,评估准确性和性格对齐度两个维度。PersonaVLM对阵GPT-4o时赢了79%的案例,打平5%,输了16%。对阵InternVL3-8B时赢了84%,对阵Qwen2.5-VL-7B时赢了92.5%。

六、消融实验:每个设计选择的贡献

研究团队还对设计中的每个关键组件单独做了消融测试,验证其是否真的有效。

移除情节记忆时,32k配置下性能下降12.41个百分点,128k下下降5.19个百分点——这是所有组件中影响最大的,说明有组织地存储和检索对话片段对于长期记忆至关重要。移除语义记忆时,性能下降约1.77个百分点,影响相对较小。移除程序记忆时,在行为和关系相关任务上有明显的下降,说明记录用户习惯对于这类任务的理解有专门的价值。移除核心记忆时,下降约1.68个百分点,影响较为均匀。移除多步推理能力时(即直接检索不迭代),32k下降2.75个百分点,128k下降3.73个百分点,进一步验证了迭代推理比一次性检索更有价值。

在情节记忆的检索数量上,团队还专门测试了检索1到4个话题条目的效果。结果显示,从0增加到2时性能提升明显,2之后趋于平缓,因此团队选择了2作为默认配置,在性能和计算效率之间取得平衡。

在PEM的有效性上,移除性格演化机制后,P-SOUPS整体得分下降4个百分点,其中风格维度下降最为显著(-9.2分),说明动态性格推断确实能帮助AI找到更贴合用户个性的回复风格。

七、效率与隐私:现实部署中的两个关键问题

在计算效率方面,研究团队做了三组方案的对比:不带PersonaVLM的基础Qwen2.5-VL-7B平均每次请求消耗43530个token,平均响应时间8.4秒;带了记忆但不推理的PersonaVLM(直接用检索结果回答,不迭代)平均只用2726个token,响应时间仅2.09秒——比基础版快了4倍多,token消耗减少了93.7%;完整PersonaVLM(带多步推理)的token消耗进一步降至2170个(比不推理版还少20.4%,因为推理过程帮助精准定位了所需信息),但响应时间因为需要多轮推理而增加到10.18秒,比基础版慢了约21%。记忆更新操作在回复发出后异步执行,不计入响应时间。

隐私安全方面,PersonaVLM的记忆存储和检索完全在本地运行,不依赖任何外部商业API。用户数据不会离开本地环境,从架构上杜绝了数据泄露风险。这对于那些希望使用个性化AI但又顾虑隐私的用户来说,是一个重要的差异化优势。

当然,研究团队也坦诚地指出了几个现实局限:PersonaVLM目前还不支持视频或音频中的人物识别和追踪;整体性能天花板受限于底层基础模型Qwen2.5-VL-7B的能力;记忆系统目前是纯粹基于时间线的,不同时间发生的相关事件之间还没有建立横向联系。这些都是未来需要改进的方向。

说到底,PersonaVLM做的事情可以用一句话概括:把AI助手从一个"每次见面都把你忘干净的陌生人"变成一个"真正了解你、记得你的过去、感知你的变化"的长期伴侣。它通过四格记忆系统解决了"记不住"的问题,通过迭代推理检索解决了"找不准"的问题,通过动态性格演化机制解决了"不适配"的问题。

这项研究的意义不仅在于技术本身,更在于它重新定义了"个性化AI"的评估标准——不是看AI能不能记住你叫什么,而是看它能不能感知到你从喜欢雪碧变成了喜欢可乐、能不能在你焦虑时用适合你性格的方式给你安慰。当然,77分的Persona-MME成绩也说明这条路还很长,GPT-5的82.95分和PersonaVLM之间的差距提醒我们,真正像老朋友一样理解人类,AI还在路上。有兴趣深入了解这项研究细节的读者,可以通过arXiv编号2604.13074查阅完整论文。

Q&A

Q1:PersonaVLM的记忆系统有哪几种类型,分别存什么内容?

A:PersonaVLM的记忆数据库分为四种类型。核心记忆存用户的基础信息,如名字、职业、偏好,随时覆盖更新。语义记忆存稳定的事实性知识,比如"用户对猫过敏"或某张照片里特定人物的图像。情节记忆按时间轴组织对话片段,每段附有摘要、关键词和轮次索引。程序记忆则记录用户的长期目标和重复性习惯。前两种类型纯粹累积不删除,后两种只保留最新版本。

Q2:PersonaVLM如何追踪用户性格随时间的变化?

A:PersonaVLM使用了一个叫"人格演化机制"(PEM)的算法,基于大五人格模型(开放性、尽责性、外向性、宜人性、神经质)维护一个五维数字档案。每轮对话后,AI推断一个临时性格评分,然后用指数移动平均公式融合进长期档案。早期对话中新评分权重更高,随着交互增多档案趋于稳定,避免被偶发的异常行为干扰,同时能捕捉到真实的长期性格演变。

Q3:PersonaVLM和直接让AI读完整对话历史相比有什么优势?

A:直接读完整历史会随着对话增长消耗大量计算资源,且模型容易在超长上下文中"迷失"关键信息。PersonaVLM通过结构化记忆系统压缩了信息,平均token消耗比基础模型减少93.7%,并通过迭代推理精确定位相关记忆,在128k超长上下文测试中的个性化理解表现比直接读取历史的GPT-4o还高出约5个百分点。