《Neuron》：大脑和Transformer，用的是同一套记忆系统？

侃故事的阿庆

2026-06-02 08:33 ·福建

机器学习工程师每天都在用键值记忆（Key-Value Memory）。

Transformer的自注意力机制、RAG检索系统、联想记忆网络，这些东西的底层设计逻辑，都是键值分离：用一套表征来寻址，用另一套表征来存内容。

但很少有人停下来问过：这套我们天天在写代码时调用的计算框架，会不会和人类大脑用的是同一套底层逻辑？

2025年6月，哈佛大学Samuel J. Gershman和麻省理工学院Ila Fiete等学者，在神经科学顶刊《Neuron》发表了一篇题为《Key-value memory in the brain》的论文。

这篇论文做了一件在两个领域都少见的事：它不是拿脑科学去"启发"AI设计，也不是拿AI架构去"比喻"大脑，而是用同一套数学框架，把两件事放在一起严格推导，证明它们本质上是同一个东西。

海马体是索引，新皮层是内容：一个被数学推导支撑的分工假说

论文的核心假说，说起来其实不难理解。

研究者提出：人类大脑的记忆系统，本质上实现了一套键值分离的架构。海马体负责编码用于寻址的键（Key），新皮层负责存储记忆内容的值（Value）。

这个分工不是一个新颖的比喻，而是有一长串神经生物学证据支撑的推论。海马体的CA3区通过稀疏编码形成高分辨率的记忆索引，CA1区执行模式补全，负责把部分线索补全为完整记忆，这与键值系统中"用Query检索Key、再提取对应Value"的机制高度吻合。新皮层则通过缓慢的权重更新来沉淀语义知识，对应的是值存储层的长期稳定性。

更有意思的是，论文对"遗忘"给出了一个全新的计算解释。

遗忘的本质，不是记忆内容被删除了，而是检索路径断裂了。

在键值框架里，这意味着：值（Value）本身可能还在，但对应的键（Key）已经无法被当前的查询向量精准匹配到。这个推论与神经科学里长期存在的争议高度吻合，很多研究显示，被"遗忘"的记忆有时可以通过特定线索被重新激活，说明内容并未消失，只是检索路径退化了。

这件事的含义不只停留在学术层面。如果遗忘是检索失效而非存储丢失，那么干预记忆障碍的方向，就不只是"怎么保住记忆内容"，还应该包括"怎么维护检索键的稳定性"。

全连接神经网络，天生就是一个键值记忆系统

论文里有一个推导，让很多读过的机器学习工程师感到意外。

研究者证明，最基础的全连接神经网络（多层感知机，MLP），本质上就是一个天然的键值记忆系统。

推导逻辑是这样的：MLP的第一层权重矩阵可以被理解为键矩阵，激活函数决定了查询向量与键的匹配方式，第二层权重矩阵则对应值矩阵，输出是对所有值的加权组合。

这个对应关系不是强行类比，而是可以用线性代数精确表达的等价关系。

它意味着，Transformer里的注意力机制，和MLP里的前馈网络，从记忆系统的角度来看，其实在做同一件事，只是查询机制的设计不同。

这个发现有一个重要的延伸含义：它解释了为什么神经网络在持续学习（Continual Learning）场景下会出现"灾难性遗忘"。当新任务的训练更新了权重矩阵，实际上是在覆盖旧任务的键值对，旧的检索路径因此断裂，旧知识就"消失"了。

大脑通过海马体与新皮层的分工，在一定程度上规避了这个问题，因为快速学习和慢速沉淀发生在不同的结构里，彼此不会直接互相覆盖。

这也是互补学习系统理论（Complementary Learning Systems）在键值框架下得到的一个更精确的计算解释。

论文的意义，不在于它发现了什么之前完全未知的事实，而在于它提供了一种语言，让两个长期平行发展的领域终于能够精确对话。

过去，神经科学家说"海马体负责记忆编码"，机器学习工程师说"注意力机制做的是检索"，双方都知道这两件事听起来有点像，但没有人把它们放在同一个数学框架里写清楚。

这篇论文做的，正是这件事。

哈佛和MIT的这个研究团队，选择在《Neuron》而不是机器学习会议上发表这篇论文，本身也传递了一个信号：这不是一篇用脑科学为AI设计服务的工程论文，而是一次认真的基础科学尝试。

它想问的问题是：自然智能和人工智能，是否在独立演化的过程中，收敛到了同一套解决记忆问题的方案？

目前的答案，指向的是：很可能是的。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴