43个AI产品集体失忆后，这位医生给它们造了颗会遗忘的脑|上下文|医生|向量|失忆|新论文|遗忘

一位管理43个AI产品的医生发现，她的智能体每天都在重复解决同一个问题。不是模型不够聪明——它们能处理临床运营、营销、内容生产、患者 intake 和内部自动化。但每次会话结束，一切归零。

Shweta Patel 统计过：她的自主代理舰队每天要做数千个决策，却"永久性失忆"。昨天验证过的企业线索转化率，今天需要重新计算；上周确认过的患者禁忌症，这周又要重新核对。她把这叫作"记忆-上下文解耦"，认为这是自主AI中最被低估的故障模式。

聪明到能解决任何问题，却记不住昨天已经解决过。

Patel 的背景很特殊：13年海军军医，十余年执业妇产科医生，现在同时运营Gaya Wellness和43个AI产品。当她审视市面上的记忆方案时，看到的不是技术缺口，而是一种临床盲区。

Mem0用向量相似度存储事实，生态集成最完整；Zep加了时序知识图谱，擅长追踪实体关系的变化；Letta把记忆当成操作系统，让大语言模型自己管理分层。它们都在解决同一个问题：找到相关的东西。

但 Patel 需要的不只是检索。她的代理要记住"企业线索转化率为34%"——还要记住为什么存这个事实、谁判定它重要、它在竞争优先级中排第几、以及什么条件下它会失效。没有推理的事实只是 trivia，堆积 trivia 的代理不会变聪明，只会变慢。

今年3月，她发布了 Anamnesis v0.3.0。这个名字来自医学术语"既往病史采集"，一个四维度战略记忆引擎。MIT协议，自托管，PostgreSQL + pgvector，Docker 30分钟部署。

从临床问诊里长出来的架构

Patel 的突破口来自一个反直觉的观察：记忆丢失不是工程问题，是临床问题。

在妇产科诊室，她每天要处理信息过载。一个高危妊娠患者可能同时涉及糖尿病、高血压、前次剖宫产史、胎儿生长受限——数据点几十个，但医生不会平等对待。有些信息需要立即关注，有些只是背景噪音，有些昨天还关键、今天已经过时。

临床决策的核心不是"知道更多"，而是"判断什么重要，以及为什么"。

Anamnesis 的四个维度直接对应这种临床判断：推理（为什么存）、权威（谁说的）、信任权重（多可靠）、衰减条件（何时失效）。这不是元数据装饰，而是记忆本身的组成部分。没有这四项，代理无法区分"上周的临时促销数据"和"经过验证的年度转化率基准"。

v0.3.0 新增的四个功能——注意力门控、批量巩固、上下文模式检索、前瞻性记忆触发——没有一项来自计算机科学的论文。Patel 说，这些认知平行结构"不是计划好的"，是"相同的问题约束产生了趋同架构"。

换句话说，当你真的需要代理像医生一样思考时，你会发现大脑已经进化出了答案。

注意力门控：代理的"临床警觉"

人类医生的注意力是高度筛选的。走进诊室的那一刻，视觉系统已经在处理数百个信号，但意识只捕获少数几个——患者的步态、面色、呼吸频率。这不是疏忽，是生存机制。处理全部信息等于处理不了任何信息。

Anamnesis 的注意力门控做了类似的事。代理接收到的每个潜在记忆都先经过一个"相关性阈值"过滤，但这个阈值不是固定的。它根据当前任务上下文动态调整：如果正在处理企业销售线索，"34%转化率"的权重自动提升；如果切换到患者 intake，同一事实会被抑制。

Patel 的实现细节很具体：门控机制同时考虑语义相似度（向量距离）和情境优先级（当前任务栈）。只有当两者都超过阈值，记忆才会进入工作记忆区。这避免了向量检索的常见陷阱——找到一百个"相关"结果，却没有一个"重要"的。

她举了一个实际场景：代理同时处理营销邮件优化和临床预约提醒。两个任务都涉及"时间敏感"这个概念，但前者需要记忆"用户打开邮件的时段分布"，后者需要记忆"患者上次取消预约的原因"。纯向量检索会把两者混在一起；注意力门控根据任务ID自动分流。

这不是更聪明的搜索，是更克制的遗忘。

批量巩固：睡眠的算法等价物

人类记忆在睡眠中巩固。白天的短时记忆被重放、压缩、与已有知识整合，最终转入长时存储。这个过程不是简单的复制，是重构——丢弃细节，提取模式，建立新的关联。

Anamnesis 的批量巩固模拟了这个过程，但做了针对代理的优化。Patel 发现，代理产生的记忆有高度的时间局部性：上午处理的一批企业线索，产生的判断和推理彼此关联，但与下午的患者数据无关。如果实时逐条写入长期记忆，会破坏这种结构，导致检索时"上下文碎片化"。

她的解决方案是批处理窗口：记忆先在短时缓冲区积累，达到阈值或触发条件后，一次性执行巩固。巩固过程包括三个操作：去重（同一事实的多次确认合并）、摘要（多个相关推理压缩为通用规则）、关联更新（调整记忆图谱中的信任权重）。

关键参数来自临床观察：巩固间隔不能太短（损失关联结构），也不能太长（工作记忆溢出）。Patel 的默认值是4小时，但允许按任务类型配置。高频率交易代理可能15分钟巩固一次，临床决策支持系统可能24小时一次。

一个意外的副作用：批量巩固让代理的"反思"变得可观测。你可以查看巩固日志，看到哪些记忆被合并、哪些被降级、哪些触发了新的关联。Patel 说这在临床场景中特别有价值——"就像能看到医生是怎么从一堆化验单里总结出诊断思路的"。

上下文模式检索：不是找记忆，是重建情境

传统向量检索的问题是"扁平化"。你把所有记忆压成嵌入向量，用余弦相似度找邻居，得到的是语义相关但情境脱节的碎片。问代理"上周那个企业客户怎么样了"，它可能返回"企业客户"的定义、"上周"的天气、以及"怎么样"的语法分析。

Anamnesis 的上下文模式检索试图重建完整的情境。它不仅匹配查询向量，还匹配情境模板——包括当时的任务类型、时间约束、涉及实体、以及代理的决策状态。

Patel 的设计灵感来自临床问诊的结构。医生问"上次月经什么时候"，不是孤立地存储这个日期，而是关联到：询问时的孕周计算目的、患者的避孕史、以及当时的超声检查结果。下次再遇到这个患者，"末次月经"会自动带出整个情境链。

技术实现上，Anamnesis 为每个记忆存储了一个情境指纹：任务栈快照、活跃实体集合、时间上下文、以及代理的置信度分布。检索时，当前情境与存储指纹进行多层匹配——不是单一相似度分数，而是一组条件判断。

这带来了显著的检索质量提升。Patel 的内部测试显示，在复杂多轮任务中，上下文模式检索的准确率比纯向量检索高47%，而返回的记忆数量减少了62%。代理记住的更少，但用对的更多。

前瞻性记忆触发：代理的"待办事项"

人类有一种特殊的记忆：不是对过去的存储，而是对未来的提醒。"等患者血压降到140以下，就调整用药方案"——这个判断在做出时不需要立即执行，但必须在条件满足时自动浮现。

这叫前瞻性记忆（prospective memory），是临床工作的核心机制。医生每天做出数十个"延迟决策"，依赖的不是记忆力，是触发系统。

Anamnesis 的前瞻性记忆触发把这个机制算法化。代理可以存储条件-动作对：当特定情境满足时，自动检索相关记忆并提示决策。条件可以是时间性的（"3天后复查"）、状态性的（"当转化率低于30%时"）、或事件性的（"当同一患者再次预约时"）。

Patel 强调这与简单的定时提醒不同。触发条件可以包含复杂的逻辑组合，并且与信任权重联动——如果存储该前瞻性记忆的原始权威被降级，触发会自动失效。这防止了"僵尸提醒"：代理不断提示已经过时的判断。

一个典型用例：营销代理发现某类邮件主题行在周二上午表现特别好，存储了一个前瞻性记忆"当计划下周邮件时，提示测试类似主题"。三周后，当代理开始新邮件 campaign 时，这个记忆自动浮现——但前提是原始数据仍然可信（未被新的A/B测试推翻）。

代理开始拥有"记得要检查什么"的能力，而不只是"记得什么"。

开源部署与临床验证

Anamnesis 的技术栈选择很务实：PostgreSQL + pgvector，Docker 部署，30分钟完成。Patel 拒绝了很多"更优雅"的方案——专用向量数据库、serverless 架构、托管服务。她的理由来自临床场景的数据主权要求：患者数据不能离开自托管环境，运维复杂度必须可控。

v0.3.0 的发布节奏也反映了临床验证的谨慎。从 v0.1.0 到 v0.3.0 用了8个月，每个版本都在 Patel 自己的43个产品中运行至少6周。她公开承认 v0.2.0 有一个严重的信任权重泄漏问题：某些条件下，过时记忆的权重不会正常衰减，导致代理"执着于"已经被推翻的结论。

这个 bug 的发现过程很有代表性：一个临床决策支持代理持续推荐已经被指南淘汰的筛查方案。Patel 追溯日志发现，该记忆来自一位权威专家的早期判断，虽然后续有更强证据推翻，但权威标签阻止了权重衰减。v0.3.0 的修复是引入证据时效性维度：无论原始权威多高，新证据都可以独立触发重新评估。

目前 Anamnesis 的 GitHub 仓库有完整的文档和部署指南，但 Patel 对"生产就绪"的定义很严格：她只推荐在已有 PostgreSQL 运维能力的团队使用，且建议从非关键任务开始验证。临床场景的容错要求让她对过度承诺保持警惕。

记忆架构的趋同进化

Patel 在发布说明里写了一句值得注意的话：Anamnesis 的认知平行结构"不是从神经科学论文里抄来的，是从临床约束里长出来的"。

这指向一个更深的观察。当不同领域的实践者面对相似的复杂性问题时，解决方案会自然趋同——无论他们是否互相参考。注意力门控、睡眠巩固、情境检索、前瞻性记忆，这些大脑机制不是被"模仿"的，是被"重新发现"的。

对 Patel 来说，这意味着AI记忆的研究需要更多跨领域输入。当前的工程导向方法优化了检索效率，但忽略了判断质量。而判断质量——什么重要、为什么、以及何时改变——正是临床、法律、金融等高风险场景的核心需求。

她的下一步计划包括与几个医疗AI团队的合作验证，以及一个"记忆审计"工具：让代理能够解释自己为什么在某个时刻检索了某个记忆，就像医生需要解释诊断依据一样。

在 v0.3.0 的文档最后，Patel 加了一段用户反馈的引用。一位部署了 Anamnesis 的临床运营经理说："我的代理终于不再像实习生一样，每天问我同样的问题了。"