机器学习工程师每天都在用键值记忆(Key-Value Memory)。

Transformer的自注意力机制、RAG检索系统、联想记忆网络,这些东西的底层设计逻辑,都是键值分离:用一套表征来寻址,用另一套表征来存内容。

但很少有人停下来问过:这套我们天天在写代码时调用的计算框架,会不会和人类大脑用的是同一套底层逻辑?

2025年6月,哈佛大学Samuel J. Gershman和麻省理工学院Ila Fiete等学者,在神经科学顶刊《Neuron》发表了一篇题为《Key-value memory in the brain》的论文。

这篇论文做了一件在两个领域都少见的事:它不是拿脑科学去"启发"AI设计,也不是拿AI架构去"比喻"大脑,而是用同一套数学框架,把两件事放在一起严格推导,证明它们本质上是同一个东西。

海马体是索引,新皮层是内容:一个被数学推导支撑的分工假说

论文的核心假说,说起来其实不难理解。

研究者提出:人类大脑的记忆系统,本质上实现了一套键值分离的架构。海马体负责编码用于寻址的键(Key),新皮层负责存储记忆内容的值(Value)。

这个分工不是一个新颖的比喻,而是有一长串神经生物学证据支撑的推论。海马体的CA3区通过稀疏编码形成高分辨率的记忆索引,CA1区执行模式补全,负责把部分线索补全为完整记忆,这与键值系统中"用Query检索Key、再提取对应Value"的机制高度吻合。新皮层则通过缓慢的权重更新来沉淀语义知识,对应的是值存储层的长期稳定性。

更有意思的是,论文对"遗忘"给出了一个全新的计算解释。

遗忘的本质,不是记忆内容被删除了,而是检索路径断裂了。

在键值框架里,这意味着:值(Value)本身可能还在,但对应的键(Key)已经无法被当前的查询向量精准匹配到。这个推论与神经科学里长期存在的争议高度吻合,很多研究显示,被"遗忘"的记忆有时可以通过特定线索被重新激活,说明内容并未消失,只是检索路径退化了。

这件事的含义不只停留在学术层面。如果遗忘是检索失效而非存储丢失,那么干预记忆障碍的方向,就不只是"怎么保住记忆内容",还应该包括"怎么维护检索键的稳定性"。

全连接神经网络,天生就是一个键值记忆系统

论文里有一个推导,让很多读过的机器学习工程师感到意外。

研究者证明,最基础的全连接神经网络(多层感知机,MLP),本质上就是一个天然的键值记忆系统。

推导逻辑是这样的:MLP的第一层权重矩阵可以被理解为键矩阵,激活函数决定了查询向量与键的匹配方式,第二层权重矩阵则对应值矩阵,输出是对所有值的加权组合。

这个对应关系不是强行类比,而是可以用线性代数精确表达的等价关系。

它意味着,Transformer里的注意力机制,和MLP里的前馈网络,从记忆系统的角度来看,其实在做同一件事,只是查询机制的设计不同。

这个发现有一个重要的延伸含义:它解释了为什么神经网络在持续学习(Continual Learning)场景下会出现"灾难性遗忘"。当新任务的训练更新了权重矩阵,实际上是在覆盖旧任务的键值对,旧的检索路径因此断裂,旧知识就"消失"了。

大脑通过海马体与新皮层的分工,在一定程度上规避了这个问题,因为快速学习和慢速沉淀发生在不同的结构里,彼此不会直接互相覆盖。

这也是互补学习系统理论(Complementary Learning Systems)在键值框架下得到的一个更精确的计算解释。

论文的意义,不在于它发现了什么之前完全未知的事实,而在于它提供了一种语言,让两个长期平行发展的领域终于能够精确对话。

过去,神经科学家说"海马体负责记忆编码",机器学习工程师说"注意力机制做的是检索",双方都知道这两件事听起来有点像,但没有人把它们放在同一个数学框架里写清楚。

这篇论文做的,正是这件事。

哈佛和MIT的这个研究团队,选择在《Neuron》而不是机器学习会议上发表这篇论文,本身也传递了一个信号:这不是一篇用脑科学为AI设计服务的工程论文,而是一次认真的基础科学尝试。

它想问的问题是:自然智能和人工智能,是否在独立演化的过程中,收敛到了同一套解决记忆问题的方案?

目前的答案,指向的是:很可能是的。