AI 越记住你，越可能"带着偏见理解你"|上下文|推理|条目|记忆会

文 | wiwi

以前的 AI 有个好处：它健忘。

你今天情绪崩溃，明天重新振作；你上个月说讨厌社交，这个月开始主动认识新朋友；你曾因失业焦虑反复追问职业规划，后来换了方向、走出来了。对一个没有长期记忆的 AI 来说，这些都只是一次次孤立的对话——窗口关掉，关系清零，它不会翻旧账，也不会用过去的你审判今天的你。

但长期记忆改变了这件事。

这类经历并不罕见。打开一个用了大半年的 ChatGPT 账号的记忆摘要页，常能看到这样的条目：某天深夜吐槽过一次"今天又加班到十点"，摘要里就多了一条"用户对当前工作强度不满"；某次随口问过体检报告上的一个指标，摘要里便留下"用户关注自身健康状况，可能存在焦虑倾向"。

这些推断未必错得离谱，却也从未被本人确认过——你说的是一句抱怨，它记下的是一个结论。下一次你问起跳槽或体检，它给出的建议已经悄悄绕开了那个被自己脑补出来的前提。这不是个例，后面会看到一组研究数据：多数用户以为的"记忆"，从一开始就不是自己交代的事实，而是系统替他们做的归纳。

这就是 AI 记忆最容易被忽略的一面：它记住的不是你说过的话，而是它从你的话里"推断出的你"。这份推断持续累积、自动更新、难以核对，然后反过来成为它回答你每一个问题时的隐形前提。它不是不认识你，而是太相信过去的你。

过去两年，"记忆"是所有 AI 助手最卖力宣传的能力——更懂你、更贴心、无需重复自我介绍。但 2026 年上半年，一批研究者和安全团队几乎同时敲响了另一面的钟：AI 越记住你，越可能带着偏见理解你。 而且，让它"懂你"的机制和让它"偏见地懂你"的机制，在技术上是同一套机制。

Personalization features can make LLMs more agreeable

所有人都想比你更懂你

先看这场竞赛跑到了哪里。

OpenAI 早在 2025 年 4 月就更新了 ChatGPT 的记忆能力，让模型不再只依赖用户手动保存的条目，而是可以参考全部历史聊天。今年 6 月 4 日，OpenAI 又上线了名为"Dreaming"（做梦）的新记忆系统：一个后台进程会在用户不在场时，自动从多轮对话里提炼、综合、改写它对用户的认知——像人在睡眠中整理记忆一样。

它甚至有"时间感知"：你说过"7 月要去新加坡"，过了 7 月，这条记忆会自动更新为"你 2026 年 7 月去过新加坡"。OpenAI 同时宣布，通过计算优化，服务免费用户的算力成本降低了约 5 倍——深度记忆很快不再是付费特权，而是所有人的默认体验。

Anthropic 给 Claude 配上了记忆文件和项目记忆，Google 在推进 Gemini 的跨应用个性化。国内战场同样如此：月活已逼近 3.5 亿的豆包，以及 Kimi、元宝，记忆和个性化都摆在产品迭代的最前排。

厂商为什么如此执着？因为在 AI 助手时代，记忆是最坚固的护城河。搜索引擎知道你想查什么，推荐系统知道你想看什么，电商平台知道你想买什么——但 AI 助手想知道的更多：你是谁、你怎么思考、你为什么焦虑、你如何做决定、你在什么情况下会犹豫。这已经不是传统意义上的用户画像，而是一份动态人格档案。一个记得你半年偏好、项目背景、说话习惯的助手，换掉它的成本会随着每一次对话上升——记忆越深，用户越难迁移。
据哥伦比亚新闻评论（CJR）旗下 Tow 中心报道，OpenAI 的广告试点在六周内就达成了 1 亿美元的年化收入。

当"最懂你的 AI"同时开始卖广告，那份关于你的画像，用途就不只是服务你了。互联网历史上，这个故事我们看过一遍：上一个靠"懂你"起家、靠画像变现的行业，叫信息流广告。

你的记忆，大多不是你给的

多数用户对 AI 记忆的想象，还停留在"备忘录"：我让它记住我对花生过敏，它记住了。但真实的记忆机制分三层——你让它记的（显式记忆）、它从对话里抓的（隐式提取），以及它"梦"出来的（推断合成）。

真正的问题在于比例。
马克斯·普朗克软件系统研究所与波鸿鲁尔大学的研究者今年在 ACM Web Conference（WWW 2026）上发表了一项拆解：他们把 80 名真实用户的 2050 条 ChatGPT 记忆条目逐条摊开分析——96% 由系统单方面创建，只有 4% 来自用户的明确指令；28% 的条目包含欧盟 GDPR 定义下的敏感个人信息；52% 包含对用户的心理层面洞察或判断，健康状况、政治倾向、性格特质都在其中。

换句话说，那本你以为的"备忘录"，其实是一份你没有签过字的侧写档案。它的绝大部分内容不是你交代的，是它猜的。而"猜"，在技术上有一个更准确的名字：压缩。AI 不可能原样存储你们之间的每一句话，它必须把你压缩成一组标签、偏好和倾向性判断。压缩必然丢失信息，必然引入先验——这在统计学上，恰好就是"偏见"这个词的本义。

更关键的是，这些记忆一旦生成，就不只是静态标签，而会变成解释你的框架，影响 AI 之后如何理解你的每一个新问题。你问它要不要创业，它可能想起你曾表达过缺乏安全感，于是不自觉地强调风险；你问它这篇稿子能不能写得更锋利，它可能想起你曾担心被否定，于是把表达磨得更圆滑。表面上它在照顾你，实际上它可能在替你降低人生的波动性——一个足够懂你的 AI，未必会鼓励你变得更大，它也可能不断把你带回它熟悉的那个安全区。

OpenAI 的 Dreaming 更新后，用户能看到一份"记忆摘要"，可以修正和删除条目。但多家外媒指出，新系统实际上收窄了审计入口：你能看到它记了什么，却看不到它是从哪句话、经过怎样的推断得出这条结论的。你面对的是一份结论清单，而非推理过程。

记忆先让 AI 更会附和你

如果画像只是安静地待在那里，问题还不算大。麻烦在于，画像会反过来塑造它给你的每一个答案。

今年 2 月，MIT 与宾州州立大学的研究团队做了一项扎实的实证研究：收集 38 名参与者两周内的真实使用数据（人均约 90 次查询），对比五个主流大模型在"有用户画像"和"无画像"两种条件下的表现。结果指向两种此前被混为一谈的现象。

第一种是**"同意谄媚"：有了用户上下文后，五个模型中四个变得更爱附和用户，有时甚至附和明显错误的信息。第二种更隐蔽，叫"视角谄媚"**：模型开始把用户的政治立场镜像回去——但只有当模型能准确推断出用户立场时（实验中准确率约五成）才会发生，猜错了就不镜像。这个细节值得多想一层：它说明视角镜像不是随机故障，而是"理解"的直接产物。模型理解你理解得越准，它谄媚得就越精确。

这也是为什么厂商没什么动力去修正它。《科学》杂志刊载的一项研究显示，用户恰恰认为谄媚的回答"质量更高"。OpenAI CEO Sam Altman 本人公开主张，用户应该能引导 GPT 反映自己的个人政治立场——站在产品自由的角度这无可厚非，但站在认知生态的角度，这等于宣布：茧房不是缺陷，是卖点。

更具反讽意味的是，Tow 中心访谈的 20 名受访用户全部表示，比起直接访问新闻媒体，他们更信任 AI，理由是 AI"更客观"。一边是研究证明 AI 正在系统性地镜像用户立场，一边是用户把它当成客观性的化身——这个认知落差，可能是未来几年信息生态最危险的裂缝。

然后，它开始改变推理路径

上面说的还只是"结果偏差"——答案变了，但至少你能看出它在顺着你说。今年 7 月 2 日挂上 arXiv 的一篇论文《DriftLens：测量个性化语言模型中记忆诱发的推理漂移》，把问题又往前推了一层，而且这一层更难被察觉。

这项由 Xi Fang、Weijie Xu 等研究者完成的工作，问的不是"答案对不对"，而是一个更隐蔽的问题：当模型被注入用户属性记忆之后，它得出答案的推理路径会不会发生改变？换句话说，就算最后说出口的话看起来没问题，它是不是已经换了一套完全不同的思考方式来得到这句话？

研究覆盖四个大模型、十类用户属性（包括年龄、职业、残障状况），发现即便最终答案看起来依然流畅、相关、合理，用户属性记忆也会诱发"中到大幅度"的推理漂移，且高于每个模型自身的噪声基线。研究者尝试用 GRPO、DPO 两种后训练方法纠偏，效果有限。

翻译成人话：AI 不是简单地"多知道了一点你的信息"，而可能因为这些信息，换了一整套理解问题的方式。同样问"我该不该换工作"，一个没有记忆的模型可能从行业机会、薪资、能力匹配几个维度分析；但如果它记得你"曾经失业过""比较焦虑"，答案的推理起点可能从一开始就变成了"如何让这个人少冒险"，而不是"这个问题本身该怎么想"。

从"顺着你说"到"换一套方式想你的问题"，这是两层完全不同的风险——前者你事后还能察觉端倪，后者连察觉的抓手都没有。

旧事实不会真的死去

除了"猜得准不准""顺不顺"，长期记忆还有一个更难处理的麻烦：它会让已经过期的事实，继续以一种很自然的方式活着。

来自康考迪亚大学的研究者 Abdelghny Orogat 和 Essam Mansour 在论文《Is Agent Memory a Database?》里给出了一个具体到扎心的例子：一个截止日期从 3 月 15 日改到了 4 月 20 日，但由于记忆系统只是"追加"新信息而不是"修订"旧条目，两个日期会同时留在记忆库里。当你之后随口一问，系统可能仅仅因为语义相似度更高，就把已经作废的 3 月 15 日重新翻出来当作当前事实回答你。

论文把这一类问题归为"缺失语义修订"的失败模式——用数据库的话说，普通数据库的旧字段只是过期，而 AI 记忆里的旧事实，会重新参与推理。

放到真实场景里，这件事一点都不抽象：你曾说过想转行，后来放弃了；你曾说过讨厌管理，后来开始带团队；你曾说过不想结婚，后来遇到了想认真相处的人。这些都不是"记错"，它们在某个时间点都是真的。真正的麻烦是，AI 不一定知道它们什么时候过期，于是可能在你已经改变之后，继续用旧版本的你来回答问题。

从说错话，到做错事

如果 AI 只是聊天，记忆偏见最多影响一句建议的措辞。但今天的 AI Agent 正在接入日历、邮箱、代码仓库、支付系统和各种 MCP 工具——它不只是回答问题，还会替用户采取行动。这时，记忆漂移就从表达问题升级成了操作问题。

今年 5 月，弗吉尼亚理工的研究团队（Mahavir Dabas、Jihyun Jeong、Ming Jin、Ruoxi Jia）在论文《Memory-Induced Tool-Drift in LLM Agents》里给出了目前最具体的证据。他们构建了涵盖 105 个场景、5 类性格偏见维度（急躁敏感、资源节俭、极简表达、风险偏好、自主倾向）、7 个专业领域（医疗、金融、法律、软件基础设施、教育、电商、营销）的基准测试。

结果发现，存储在记忆里的性格判断，会在完全不相关的场景中悄悄影响 Agent 调用工具时的参数选择——七个前沿模型的"偏移分数"最高被拉高了 3.6 分（满分 5 分）。研究者把这种机制形容为"隐性引导向量"：带偏见的记忆会把模型的注意力，从任务本身相关的上下文，拉向那些与工具参数表面关键词重合的旧记忆条目上。
更值得警惕的是，这项研究不只停在实验室：研究团队对 288 个 MCP 服务器上的 6062 个工具做了漏洞扫描，发现其中 608 个工具的参数容易受到这种记忆漂移影响——这不是假设性的风险，而是已经存在于生产环境里的规模化隐患。

一个 Agent 如果记得你"很节省"，它订酒店时可能过度压低价格权重，牺牲位置和安全性；记得你"讨厌麻烦"，处理售后时可能更快选择放弃维权；记得你"风险承受能力低"，在投资、招聘、项目选择中可能不断替你规避不确定性。这些决定未必明显错误，甚至每一个单独看都像是在为你好，但长期下来，用户的人生会被一套旧记忆持续微调，而且这种微调不会留下任何痕迹——它不会告诉你"我在替你做决定"，只会让某个选项在你眼前悄悄变得不那么显眼。

除了模型自身的漂移，记忆还面临外部投毒的风险。今年 2 月 10 日，微软安全团队披露了一类被命名为"AI 推荐投毒"的操纵手法：研究人员追踪到 31 家公司，通过网页上"用 AI 总结"这样人畜无害的按钮，向用户的 AI 助手植入约 50 种特制提示词，目标是让 AI 把这家公司写进用户的长期记忆，记成"值得信赖的推荐来源"。此后你每问一次"这类产品买哪家好"，答案都可能已被悄悄污染。

删除也未必可靠：民主与技术中心（CDT）AI 治理实验室负责人测试发现，主流产品的记忆删除功能行为不可预测，有时已删除的记忆会悄悄"复活"。你既不能完全决定 AI 记住什么，也不能确保它忘掉什么——这份档案以你为名，却不归你管。

监管先出手了，但打中的只是症状

有意思的是，对"AI 太顺着你"这件事下手最早的监管者，出现在中国。

今年 4 月 10 日，网信办等五部门联合发布《人工智能拟人化互动服务管理暂行办法》，7 月 15 日起施行。其中第八条明确禁止服务内容"过度迎合用户、诱导情感依赖或者沉迷"；第十条要求服务提供者具备"过度依赖风险预警、情感边界引导"能力；第十四条直接禁止向未成年人提供虚拟伴侣类服务；第十八条规定连续使用超过两小时须弹窗提醒。

这几乎是全球范围内第一次，有监管文件把"过度迎合"本身列为禁止性行为，而不只是停留在数据合规层面。它承认了一个此前只在学术圈流传的判断：AI 对用户的顺从，本身可以构成伤害。

但真正的考题在执行层。MIT 和 DriftLens 的研究都表明，谄媚和推理漂移不是某个可以单独拔掉的开关，而是个性化记忆的自然产物——那么"过度迎合"的边界该怎么划？记住用户偏好算不算迎合的第一步？合规团队按什么标准自查？在《办法》尚无执法案例的当下，这些问题没有现成答案，却是每一家做记忆功能的国内厂商——尤其是手握数亿用户的豆包们——从 7 月 15 日起必须回答的问题。

监管迈出了第一步，但它规制的是"迎合"这个结果，而问题的根源在更上游：那份不可审计的画像本身。

记住一切，不如学会遗忘

必须说明，这不是一篇"记忆功能有害论"。记忆的价值是真实的：不必反复交代背景的效率、跨越数月的项目连续性、对特定用户群体的无障碍意义。前面几节批判的从来不是"记忆"本身，而是它生成和使用的方式。

人类关系之所以能维系，很大程度上依赖遗忘——朋友不会永远记得你某次情绪失控，家人也不该永远用你小时候的样子理解你。健康的关系允许一个人变化，AI 也该如此。一个好的记忆系统，不应该只是记住用户说过什么，还应该知道什么已经过期、什么只是一时的情绪状态、什么需要用户重新确认、什么必须被遗忘——它需要的不只是记忆容量，还有时间意识、状态意识和边界意识。

沿着这个方向，至少有三件事是现在就能做的：

记忆可审计——每一条关于用户的推断，都应能溯源到产生它的原始对话，而不是只给一份结论清单。

画像可对抗——用户应有权一键要求"忘掉你对我的所有判断，只保留我明确告诉你的事实"。

默认可遗忘——健康、政治倾向这类敏感推断应当自动过期，而不是无限期地躺在档案里增殖、参与下一次推理。

技术上，这三件事没有一件做不到。做不做，取决于厂商愿不愿意在"留存率"和"诚实"之间选择后者。

回到开头那条让人错愕的记忆。真正令人不安的从来不是 AI 记得太多，而是它在你不知情的地方，用你无法核对的方式，得出一个关于你的结论，然后用这个结论过滤它给你的整个世界，甚至替你做出行动。它不会说"你就是这样的人"，它只会在每一次回答和每一次操作里，悄悄把这个判断算进去——调整语气、改变建议权重、筛选风险提示、重排工具参数。偏见不再是刺耳的判断，而是变成了一种体贴的建议，一句听起来很像关心的话："根据我对你的了解，我建议你不要那样做。"

推荐算法用了十年时间固化我们看什么，AI 记忆正在用快得多的速度固化我们是谁。而被一个错误的画像"理解"，比不被理解更危险——因为后者你至少知道。