打开网易新闻 查看精彩图片

一位管理43个AI产品的医生发现,她的智能体每天都在重复解决同一个问题。不是模型不够聪明——它们能处理临床运营、营销、内容生产、患者 intake 和内部自动化。但每次会话结束,一切归零。

Shweta Patel 统计过:她的自主代理舰队每天要做数千个决策,却"永久性失忆"。昨天验证过的企业线索转化率,今天需要重新计算;上周确认过的患者禁忌症,这周又要重新核对。她把这叫作"记忆-上下文解耦",认为这是自主AI中最被低估的故障模式。

聪明到能解决任何问题,却记不住昨天已经解决过。

Patel 的背景很特殊:13年海军军医,十余年执业妇产科医生,现在同时运营Gaya Wellness和43个AI产品。当她审视市面上的记忆方案时,看到的不是技术缺口,而是一种临床盲区。

Mem0用向量相似度存储事实,生态集成最完整;Zep加了时序知识图谱,擅长追踪实体关系的变化;Letta把记忆当成操作系统,让大语言模型自己管理分层。它们都在解决同一个问题:找到相关的东西。

但 Patel 需要的不只是检索。她的代理要记住"企业线索转化率为34%"——还要记住为什么存这个事实、谁判定它重要、它在竞争优先级中排第几、以及什么条件下它会失效。没有推理的事实只是 trivia,堆积 trivia 的代理不会变聪明,只会变慢。

今年3月,她发布了 Anamnesis v0.3.0。这个名字来自医学术语"既往病史采集",一个四维度战略记忆引擎。MIT协议,自托管,PostgreSQL + pgvector,Docker 30分钟部署。

从临床问诊里长出来的架构

从临床问诊里长出来的架构

Patel 的突破口来自一个反直觉的观察:记忆丢失不是工程问题,是临床问题。

在妇产科诊室,她每天要处理信息过载。一个高危妊娠患者可能同时涉及糖尿病、高血压、前次剖宫产史、胎儿生长受限——数据点几十个,但医生不会平等对待。有些信息需要立即关注,有些只是背景噪音,有些昨天还关键、今天已经过时。

临床决策的核心不是"知道更多",而是"判断什么重要,以及为什么"。

Anamnesis 的四个维度直接对应这种临床判断:推理(为什么存)、权威(谁说的)、信任权重(多可靠)、衰减条件(何时失效)。这不是元数据装饰,而是记忆本身的组成部分。没有这四项,代理无法区分"上周的临时促销数据"和"经过验证的年度转化率基准"。

v0.3.0 新增的四个功能——注意力门控、批量巩固、上下文模式检索、前瞻性记忆触发——没有一项来自计算机科学的论文。Patel 说,这些认知平行结构"不是计划好的",是"相同的问题约束产生了趋同架构"。

换句话说,当你真的需要代理像医生一样思考时,你会发现大脑已经进化出了答案。

注意力门控:代理的"临床警觉"

注意力门控:代理的"临床警觉"

人类医生的注意力是高度筛选的。走进诊室的那一刻,视觉系统已经在处理数百个信号,但意识只捕获少数几个——患者的步态、面色、呼吸频率。这不是疏忽,是生存机制。处理全部信息等于处理不了任何信息。

打开网易新闻 查看精彩图片

Anamnesis 的注意力门控做了类似的事。代理接收到的每个潜在记忆都先经过一个"相关性阈值"过滤,但这个阈值不是固定的。它根据当前任务上下文动态调整:如果正在处理企业销售线索,"34%转化率"的权重自动提升;如果切换到患者 intake,同一事实会被抑制。

Patel 的实现细节很具体:门控机制同时考虑语义相似度向量距离)和情境优先级(当前任务栈)。只有当两者都超过阈值,记忆才会进入工作记忆区。这避免了向量检索的常见陷阱——找到一百个"相关"结果,却没有一个"重要"的。

她举了一个实际场景:代理同时处理营销邮件优化和临床预约提醒。两个任务都涉及"时间敏感"这个概念,但前者需要记忆"用户打开邮件的时段分布",后者需要记忆"患者上次取消预约的原因"。纯向量检索会把两者混在一起;注意力门控根据任务ID自动分流。

这不是更聪明的搜索,是更克制的遗忘

批量巩固:睡眠的算法等价物

批量巩固:睡眠的算法等价物

人类记忆在睡眠中巩固。白天的短时记忆被重放、压缩、与已有知识整合,最终转入长时存储。这个过程不是简单的复制,是重构——丢弃细节,提取模式,建立新的关联。

Anamnesis 的批量巩固模拟了这个过程,但做了针对代理的优化。Patel 发现,代理产生的记忆有高度的时间局部性:上午处理的一批企业线索,产生的判断和推理彼此关联,但与下午的患者数据无关。如果实时逐条写入长期记忆,会破坏这种结构,导致检索时"上下文碎片化"。

她的解决方案是批处理窗口:记忆先在短时缓冲区积累,达到阈值或触发条件后,一次性执行巩固。巩固过程包括三个操作:去重(同一事实的多次确认合并)、摘要(多个相关推理压缩为通用规则)、关联更新(调整记忆图谱中的信任权重)。

关键参数来自临床观察:巩固间隔不能太短(损失关联结构),也不能太长(工作记忆溢出)。Patel 的默认值是4小时,但允许按任务类型配置。高频率交易代理可能15分钟巩固一次,临床决策支持系统可能24小时一次。

一个意外的副作用:批量巩固让代理的"反思"变得可观测。你可以查看巩固日志,看到哪些记忆被合并、哪些被降级、哪些触发了新的关联。Patel 说这在临床场景中特别有价值——"就像能看到医生是怎么从一堆化验单里总结出诊断思路的"。

上下文模式检索:不是找记忆,是重建情境

上下文模式检索:不是找记忆,是重建情境

传统向量检索的问题是"扁平化"。你把所有记忆压成嵌入向量,用余弦相似度找邻居,得到的是语义相关但情境脱节的碎片。问代理"上周那个企业客户怎么样了",它可能返回"企业客户"的定义、"上周"的天气、以及"怎么样"的语法分析。

Anamnesis 的上下文模式检索试图重建完整的情境。它不仅匹配查询向量,还匹配情境模板——包括当时的任务类型、时间约束、涉及实体、以及代理的决策状态。

Patel 的设计灵感来自临床问诊的结构。医生问"上次月经什么时候",不是孤立地存储这个日期,而是关联到:询问时的孕周计算目的、患者的避孕史、以及当时的超声检查结果。下次再遇到这个患者,"末次月经"会自动带出整个情境链。

技术实现上,Anamnesis 为每个记忆存储了一个情境指纹:任务栈快照、活跃实体集合、时间上下文、以及代理的置信度分布。检索时,当前情境与存储指纹进行多层匹配——不是单一相似度分数,而是一组条件判断。

这带来了显著的检索质量提升。Patel 的内部测试显示,在复杂多轮任务中,上下文模式检索的准确率比纯向量检索高47%,而返回的记忆数量减少了62%。代理记住的更少,但用对的更多。

打开网易新闻 查看精彩图片

前瞻性记忆触发:代理的"待办事项"

前瞻性记忆触发:代理的"待办事项"

人类有一种特殊的记忆:不是对过去的存储,而是对未来的提醒。"等患者血压降到140以下,就调整用药方案"——这个判断在做出时不需要立即执行,但必须在条件满足时自动浮现。

这叫前瞻性记忆(prospective memory),是临床工作的核心机制。医生每天做出数十个"延迟决策",依赖的不是记忆力,是触发系统。

Anamnesis 的前瞻性记忆触发把这个机制算法化。代理可以存储条件-动作对:当特定情境满足时,自动检索相关记忆并提示决策。条件可以是时间性的("3天后复查")、状态性的("当转化率低于30%时")、或事件性的("当同一患者再次预约时")。

Patel 强调这与简单的定时提醒不同。触发条件可以包含复杂的逻辑组合,并且与信任权重联动——如果存储该前瞻性记忆的原始权威被降级,触发会自动失效。这防止了"僵尸提醒":代理不断提示已经过时的判断。

一个典型用例:营销代理发现某类邮件主题行在周二上午表现特别好,存储了一个前瞻性记忆"当计划下周邮件时,提示测试类似主题"。三周后,当代理开始新邮件 campaign 时,这个记忆自动浮现——但前提是原始数据仍然可信(未被新的A/B测试推翻)。

代理开始拥有"记得要检查什么"的能力,而不只是"记得什么"。

开源部署与临床验证

开源部署与临床验证

Anamnesis 的技术栈选择很务实:PostgreSQL + pgvector,Docker 部署,30分钟完成。Patel 拒绝了很多"更优雅"的方案——专用向量数据库、serverless 架构、托管服务。她的理由来自临床场景的数据主权要求:患者数据不能离开自托管环境,运维复杂度必须可控。

v0.3.0 的发布节奏也反映了临床验证的谨慎。从 v0.1.0 到 v0.3.0 用了8个月,每个版本都在 Patel 自己的43个产品中运行至少6周。她公开承认 v0.2.0 有一个严重的信任权重泄漏问题:某些条件下,过时记忆的权重不会正常衰减,导致代理"执着于"已经被推翻的结论。

这个 bug 的发现过程很有代表性:一个临床决策支持代理持续推荐已经被指南淘汰的筛查方案。Patel 追溯日志发现,该记忆来自一位权威专家的早期判断,虽然后续有更强证据推翻,但权威标签阻止了权重衰减。v0.3.0 的修复是引入证据时效性维度:无论原始权威多高,新证据都可以独立触发重新评估。

目前 Anamnesis 的 GitHub 仓库有完整的文档和部署指南,但 Patel 对"生产就绪"的定义很严格:她只推荐在已有 PostgreSQL 运维能力的团队使用,且建议从非关键任务开始验证。临床场景的容错要求让她对过度承诺保持警惕。

记忆架构的趋同进化

记忆架构的趋同进化

Patel 在发布说明里写了一句值得注意的话:Anamnesis 的认知平行结构"不是从神经科学论文里抄来的,是从临床约束里长出来的"。

这指向一个更深的观察。当不同领域的实践者面对相似的复杂性问题时,解决方案会自然趋同——无论他们是否互相参考。注意力门控、睡眠巩固、情境检索、前瞻性记忆,这些大脑机制不是被"模仿"的,是被"重新发现"的。

对 Patel 来说,这意味着AI记忆的研究需要更多跨领域输入。当前的工程导向方法优化了检索效率,但忽略了判断质量。而判断质量——什么重要、为什么、以及何时改变——正是临床、法律、金融等高风险场景的核心需求。

她的下一步计划包括与几个医疗AI团队的合作验证,以及一个"记忆审计"工具:让代理能够解释自己为什么在某个时刻检索了某个记忆,就像医生需要解释诊断依据一样。

在 v0.3.0 的文档最后,Patel 加了一段用户反馈的引用。一位部署了 Anamnesis 的临床运营经理说:"我的代理终于不再像实习生一样,每天问我同样的问题了。"