Neuron：大脑与 AI 的统一记忆框架 —— 键值记忆系统|key|neuron|海马体|神经元|神经网络|记忆框架|键值记忆系统

导语

对于机器学习领域的从业者而言，键值（Key-Value, KV）记忆是再熟悉不过的基础组件 —— 如Transformer 的自注意力机制，KV 架构早已成为现代 AI 实现高效记忆与检索的核心设计。但很少有人会追问：这套我们天天在用的计算框架，会不会和人类大脑的记忆机制，共享着同一套底层逻辑？

这篇2025 年发表于神经科学顶刊Neuron的论文《Key-value memory in the brain》，就为这个问题给出了一套完整、自洽的跨学科解答。论文首次将机器学习领域的键值记忆框架，与认知心理学、神经科学中关于记忆编码、存储、遗忘的经典理论与实验证据系统性整合，提出了一套贯通人工与自然智能的统一记忆框架。

本篇解读面向具备基础机器学习知识的读者，拆解这套框架的核心数学逻辑、与大脑记忆系统的对应关系，以及相关的计算验证实验，带大家看懂这篇跨领域研究的核心洞见。

关键词：键值记忆、脑科学、机器学习、持续学习、遗忘机制

贾梓杏丨作者

赵思怡丨审校

论文标题：Key-value memory in the brain 论文链接：https://www.cell.com/neuron/abstract/S0896-6273(25)00172-2 发表时间：2025年6月4日发表期刊：Neuron

引言

键值（Key-Value, KV）记忆是现代机器学习系统实现性能突破的核心基础组件之一。从 Transformer 架构的自注意力机制，到检索增强生成（RAG）系统，再到经典的联想记忆网络，KV 架构通过分离存储与检索的表征需求，解决了海量信息的高保真存储与精准化提取的核心矛盾，已成为当前人工智能领域的通用基础设计。

长期以来，认知心理学与神经科学领域围绕人类记忆机制，积累了大量关于记忆编码、存储、提取与遗忘的实验证据和理论框架，包括海马体在情景记忆中的核心作用、互补学习系统理论、记忆索引假说等。但这些分散的研究结论，始终缺乏一个统一的、可量化的计算框架，与机器学习领域的 KV 记忆研究长期处于平行发展、鲜有交叉的状态。

2025 年 6 月，哈佛大学 Samuel J. Gershman、麻省理工学院 Ila Fiete 等学者在神经科学顶刊《Neuron》发表了题为Key-value memory in the brain[1]的观点论文，首次系统完成了机器学习键值记忆框架与脑科学、心理学记忆理论的深度整合，提出了一个贯通人工与自然智能的核心假说：

(1)人类大脑的记忆系统，本质是一套实现了键值分离优化的记忆架构 —— 海马体负责编码用于记忆寻址的键（Key），新皮层负责存储记忆内容的值（Value）。

(2)许多ML方法的成功（或者局限），都是源于其作为Key-Value System的本质（令笔者吃惊的是，甚至包括了最最基本的多层感知机）。论文通过数学推导、神经生物学证据梳理与计算模拟实验，完整论证了这一框架的合理性，同时揭示了自然智能与人工智能在记忆机制上的收敛性。

可能有读者担心自己缺乏神经科学背景而错过了本文最有价值的部分，但其实完全不必有这等担忧，只需要有一定的机器学习算法基础即可。本文将从键值记忆的计算基础出发，逐步拆解该框架与大脑记忆系统的神经对应关系、核心实验证据，论证 “遗忘的本质是检索失效而非记忆丢失” 的核心结论，同时梳理论文中关于 “全连接神经网络本质是天然键值记忆系统” 的关键推导，为读者呈现这一跨领域研究的完整逻辑。

1. 计算基础

1.1 经典联想记忆的核心局限

经典的心理学与神经科学记忆模型，大多基于相似度驱动的模式检索，其核心是自联想记忆架构 —— 最典型的代表是 Hopfield 网络。这类模型的核心特征是：记忆的存储与检索复用同一套表征，输入的检索线索与存储的记忆模式直接做相似度匹配，完成记忆提取。

这种架构存在一个无法调和的核心矛盾：存储保真度与检索区分度的优化目标相互冲突。

对存储而言，表征需要最大化对记忆内容的还原度，保留尽可能多的细节信息；
对检索而言，表征需要最大化不同记忆之间的区分度，让相似但不相同的记忆能够被精准分离，避免检索干扰。

同一套表征无法同时完成两个相互冲突的优化目标，这也是经典记忆模型在容量、抗干扰能力上存在瓶颈的核心原因。而键值记忆架构的核心创新，正是彻底分离了存储与检索的表征，让两套表征可以独立优化，同时满足两个目标。论文原文用书籍的索引与正文做了精准类比：书籍的索引（键）仅负责定位内容，优化目标是快速、精准寻址，不需要包含正文的语义信息；正文（值）仅负责存储内容，优化目标是信息保真，不需要承担检索寻址的功能。

1.2 键值记忆的核心数学形式

键值记忆的最早形式化，是 Kohonen 于 1972 年提出的相关矩阵记忆模型[2]，论文基于此模型，用统一的数学语言定义了键值记忆的完整流程，我们将在下文逐一介绍。

我们定义：对于任意一个记忆条目，其由两个独立的向量构成 ——键向量kn（对应记忆的地址索引）、值向量vn（对应记忆的内容），n为记忆条目的编号。

（1）记忆写入：赫布学习构建关联矩阵

键值记忆的写入过程，是通过外积运算，将键与值的关联关系编码到关联矩阵 M中：

关联矩阵 M 初始化为全零矩阵，每写入一个记忆条目，就将键向量的转置与值向量的外积，累加到 M 中。这一过程本质是神经科学中经典的赫布学习规则：当编码键与值的神经元同步激活时，二者之间的突触连接强度会增强，矩阵 M 中的元素，对应的正是键 - 值神经元之间的突触权重。

（2）记忆读取：查询匹配实现内容提取

记忆的读取过程，是通过查询向量q（与键向量维度一致）与关联矩阵 M 的内积运算，完成记忆内容的提取:

读取的核心逻辑是：查询向量与所有存储的键向量做相似度匹配，匹配度越高的键，其对应的值在最终输出中的权重越大。从更生物意义的神经网络来谈，这等同于激活关键单元上的模式q，从而在下游价值单元中产生基于学习突触强度M的活动模式。为了更清晰地呈现这一逻辑，我们可以将公式改写为对偶形式：

其中，αn为注意力权重，由查询向量与键向量的相似度计算得到：α=σ(S(K,q))。这里的S(⋅,⋅)为相似度核函数，用于计算查询与键的匹配程度；σ(⋅) 为分离算子，用于放大不同记忆的权重差异，提升检索的区分度。

对偶形式的核心价值，是揭示了所有键值记忆系统的通用本质：记忆检索的结果，永远是所有存储值的加权和，权重由查询与对应键的匹配度决定。这一形式可以将几乎所有主流的记忆模型纳入统一框架，比如：

当分离算子σ(⋅)为恒等函数时，得到线性化注意力，对应fast weight programmers；
当分离算子σ(⋅)为 softmax 函数时，得到 Transformer 的标准自注意力机制(我们将在下一小节具体解释)；
当分离算子σ(⋅)为阈值函数时，得到经典的稀疏分布记忆模型。

1.3 键值记忆的典型实现：Transformer

论文中明确指出，Transformer 的自注意力机制，是键值记忆框架最典型、最成功的实现之一，其核心计算完全可以纳入上述对偶形式的框架中。

自注意力的核心计算分为两步：

相似度计算（缩放点积）：，其中D为键 / 查询向量的维度，缩放的目的是避免向量维度升高后内积值过大，导致 softmax 函数梯度饱和。
权重归一化（分离算子）：这里使用 softmax 函数作为分离算子，将相似度转换为 0-1 之间的归一化权重，且所有权重和为 1，实现对最匹配记忆的聚焦。

最终的注意力输出，依然是值向量的加权和，与键值记忆的通用读取逻辑完全一致。这也意味着，Transformer 的核心能力，本质是建立在键值记忆的基础之上 —— 这也是论文能够打通人工与自然智能的核心前提：既然 Transformer 的成功源于键值记忆架构，那么大脑的记忆能力，很可能也基于同一套通用计算逻辑。

1.4 两种Key-Value的计算实现形式

Fig.1 Two architectures for key-value memory (图源[1])

文中指出了实现Key-Value计算的架构无非两种。左图的结构，对于学习过Transformer的读者而言，其实已经相当熟悉：输入的x通过Query、Vaule和Key三个权重矩阵，分别映射为q,k,v，而最终的权重矩阵M则是由k,v通过Hebbian Learning来更新，其实也就是我们的公式(1)。

右图的结构，或许读者们会觉得略显陌生。我们进行一个简单的拆解：

输入层：接收原始输入x，对应检索线索 / 记忆条目；

隐藏层：输入经线性映射得到隐藏层激活α，输入层到隐藏层的权重矩阵，就是键值系统中存储的键矩阵K；隐藏层的激活值α，就是查询与所有键匹配后得到的注意力权重，对应对偶形式中的相似度加权系数；

输出层：隐藏层激活经线性映射得到最终输出，隐藏层到输出层的权重矩阵，就是键值系统中存储的值矩阵V；最终输出就是注意力权重对值向量的加权求和，与对偶形式的核心公式(3)完全一致。

2. 作为Key-Value的海马体与新皮层

在展开键值对应之前，我们先明确两个核心脑区的经典功能定位，以及领域内公认的互补学习系统（Complementary Learning Systems, CLS）框架[3]—— 这也是论文键值分工理论的核心神经科学基础。

海马体：位于大脑内侧颞叶，是情景记忆（特定时空背景下的事件记忆）的核心脑区，大量研究已证实，海马体损伤会导致严重的顺行性失忆，即无法形成新的情景记忆；
新皮层：大脑外层的折叠灰质结构，是语义记忆（关于世界的通用知识、事实、感官特征）的核心存储区，负责编码记忆的具体内容与语义规律。

经典 CLS 框架认为，海马体与新皮层存在明确的分工：海马体负责快速编码单次经历的情景记忆，新皮层负责慢学习、提取跨事件的通用语义规律。而论文的核心创新，是在 CLS 框架的基础上，用键值记忆的计算逻辑，重新定义了二者的分工本质：海马体的核心功能不是存储记忆内容，而是编码用于寻址的键（Key）；记忆的具体内容（Value），全部存储在新皮层中。

2.1 键值分工的实证证据

论文中引用了大量的实验证据来证明观点，我们不妨介绍几个最为核心的实验证据：

证据 1：海马体损伤会导致记忆的过度泛化

键值框架中，键的核心作用是精准区分不同记忆，避免检索时的混淆。如果海马体的键编码功能受损，不同记忆的寻址边界会消失，必然出现记忆的过度泛化。Winocur 等人[4]的经典实验完美验证了这一点：

训练大鼠在 A 场景中接受电击，正常大鼠会在 A 场景中表现出特异性的冻结反应，在无关的 B 场景中无反应；
一周后测试时，大鼠表现出泛化效应（语境特异性丧失），在两种情境中均会冻结。这种泛化可能是由于在这段时间内获得的记忆干扰所致。
给正常大鼠短暂放回 A 场景（提供精准的键线索），可以强化记忆的场景特异性。然而，这一 “提醒效应” 在海马体损伤的大鼠中完全消失[5]。

这一实验直接证明：海马体的核心作用是为记忆生成特异性的键，实现精准寻址；没有海马体的键，新皮层的恐惧记忆值会被任意线索激活，出现过度泛化，与键值框架的预测完全一致。

证据 2：海马体表征会主动优化区分度，完全匹配键的优化目标

键值框架中，键的优化目标是最大化不同记忆间的区分度。论文指出，海马体的神经表征完全遵循这一优化逻辑，最直接的证据是海马体的表征排斥效应：Chanales[6] 等人的研究发现，当大鼠需要区分空间上高度重叠的两条路线时，重叠区域对应的海马体位置细胞表征，会主动向相反方向分离，最终完全逆转原本的空间相似关系；且排斥效应的强度，与大鼠的路线区分准确率直接正相关。这表明键的表征会被优化到空间中相互分离的位置，最大化检索区分度，而这一优化过程，仅发生在负责编码键的海马体中，新皮层的内容表征不会出现此类排斥效应。

2.2 记忆丢失？不，是索引失效

经典的记忆衰退理论认为，遗忘是记忆痕迹随时间逐渐衰退、最终被永久擦除的过程。而论文基于键值记忆框架，提出了完全相反的核心假说：大脑的记忆一旦被编码存储，就会永久保存在新皮层中，几乎不会被永久擦除；我们日常体验到的遗忘，本质是海马体的键索引功能失效，导致系统无法通过查询线索匹配到对应的键，进而无法提取新皮层中完整存储的值。

证据 1：记忆的精度不会随时间衰减，仅可访问性下降

如果遗忘是记忆痕迹的衰退，那么随着时间推移，记忆的内容会逐渐模糊、精度持续下降；但如果遗忘是检索失效，那么记忆的内容精度会保持不变，只是被成功提取的概率（可访问性）会下降。Berens 等人的实验精准验证了这一点：

实验者让受试者记忆 “单词 - 空间位置” 配对，在不同的保留间隔后测试记忆表现，将记忆表现拆分为两个维度：可访问性（能否成功回忆出位置）、精度（回忆出的位置与真实位置的误差）；
结果显示：随着保留间隔的延长，记忆的可访问性显著下降，但回忆成功的记忆，其位置精度完全没有衰减，与刚学习时的精度一致。

这一结果完全符合键值框架的预测：值的内容完整保存在新皮层中，精度不会随时间变化；只是随着时间推移，海马体的键与日常线索的匹配效率下降，导致可访问性降低，也就是我们体验到的 “遗忘”。

证据 2：记忆干扰是遗忘的核心诱因，而非时间本身

如果遗忘是记忆痕迹的衰退，那么时间应该是遗忘的核心决定因素；但论文指出，记忆间的检索干扰，才是遗忘的核心诱因，这也完全符合键值框架的逻辑：新记忆的键会对旧记忆的键产生干扰，降低旧键与查询的匹配优先级，最终导致检索失败。最经典的证据来自 Shiffrin[7] 的序列列表记忆实验：

实验者给受试者依次呈现多个单词列表，要求回忆倒数第二个列表的内容；
结果显示：回忆的准确率，仅取决于被回忆列表的长度，与最后一个列表的长度完全无关。

这一结果对 “新记忆覆盖旧记忆” 的衰退假说提出了重要挑战：如果遗忘的本质是新记忆替换了旧记忆，那么最后一个列表的长度越长，旧列表的遗忘程度应该越严重；而实验结果显示，遗忘的核心诱因是同一列表内不同记忆的键相互干扰，导致检索失败，而非新记忆擦除了旧记忆的内容。

在这一视角下，机器学习中的灾难性遗忘现象也可以得到一种统一的解释：连续学习场景下，模型在学习新任务后旧任务的性能暴跌，并非必然是旧任务的记忆被从权重中擦除，更可能是新任务的键值对干扰了旧任务的检索通路，这也正是论文 Figure.3 （对应本文中的Figure.4）模拟实验的核心设计逻辑。

3. 作为Key-Value的MLP

在前文的内容中，我们系统拆解了键值记忆的通用计算框架、与大脑海马体 - 新皮层系统的神经对应关系，以及「遗忘本质是检索失效而非记忆丢失」的核心假说。但对于机器学习从业者而言，最核心的疑问依然存在：这套键值记忆框架，是否仅存在于 Transformer、联想记忆这类专门设计的模型中？

本小节将基于论文中的数学推导，展示一个颇具启发性的结论：任何经标准梯度下降训练的线性层 / MLP，都可以被等价地重写为一种键值记忆（Key-Value）形式；并通过可复现的模拟实验，说明这一表述如何为理解神经网络的学习与遗忘行为提供新的视角，包括对 “遗忘是否源于检索失效” 这一假说的计算验证与支持。

3.1 核心数学证明：线性层与键值记忆的严格等价性

论文引用 Irie 等人 2022 年的核心工作[8]，通过无任何近似的线性代数推导，证明了标准 SGD 训练的线性层，与键值记忆系统存在 100% 的数学等价性。这一推导是整篇论文打通人工神经网络与大脑记忆系统的核心枢纽，也是模拟实验的理论基础。

我们从读者最熟悉的无偏置线性层开始：对于一个线性层，输入为行向量$，输出为行向量，可学习权重矩阵为，则前向传播的核心公式为：y=xW

在模型训练阶段，我们通过随机梯度下降更新权重W。定义损失函数为L，根据链式法则，损失对输出y的梯度为误差信号(η为学习率)，则损失对权重矩阵W的梯度为：。

当模型完成N步训练后，我们可以将最终的权重矩阵W，从初始权重W0开始完整展开：

而对于我们最后的输出，我们可以得到：

首先进行引入一个等价的符号符号约定：

x=q还是比较容易理解的，而xn= kn，vn= en可能稍微有些费解。关于前者，其实一旦我们将输入的x理解为q，再看到，便能理解到其含义：训练样本xn在训练的线性层中，天然承担了键值记忆里「键」的全部作用 —— 它是对应误差记忆的地址索引，用来和查询输入算相似度、决定记忆的贡献权重，二者的数学角色与功能完全等价。

而vn= en也是同样的思路：训练过程中的误差信号en，在训练的线性层中，天然承担了键值记忆里「值」的全部作用 —— 它是和键绑定存储的核心记忆内容，被键匹配的相似度权重加权后，直接构成模型的最终输出，二者的数学角色与功能完全等价。

于是，最后经过稍稍地变形，便可以写作：

此时，我们已经得到了类似公式(2)(3)的Key-Value的形式了。

上述证明相对简略，更完整的过程在 Irie 等人的工作中[8]。尽管简略，但我们依然得到了一个严谨结论：线性层的前向推理过程，本质就是一次完整的键值记忆检索。我们日常使用的 MLP，是由多个线性层 + 激活函数堆叠而成的复合架构，每一个线性层都是一个独立的键值记忆系统，因此 MLP 本身就是一套多层级的键值记忆架构。

3.2 MNIST模拟实验

论文设计了一套完整的连续学习模拟实验，核心设计目标有两点：一是通过可复现的计算结果，验证线性层 / MLP 可被等价重写为键值记忆形式的合理性；二是在该键值记忆框架下考察灾难性遗忘的成因，展示其更可能源于检索干扰而非记忆内容的消失，同时在计算层面类比复现了神经科学中 “激活沉默记忆可恢复行为表现” 的经典现象。

3.2.1 实验设计

Fig.2 MNIST手写数字数据集 (图源Tensorflow官网)

实验完全遵循连续学习的标准范式，全程无任何特殊的抗遗忘设计（如记忆回放、正则化等），仅使用最基础的单隐藏层 MLP：

模型架构：单隐藏层前馈神经网络，无偏置项；输入层 784 维（28×28 灰度图像扁平化），隐藏层 64 维，ReLU 激活函数，输出层 4 维（对应两个二分类任务的 4 个类别）。

Fig.3 实验模型结构示意图：将MNIST 28*28的图像展平为1d的向量之后，与Input Layer 大小对齐，然后经过64d的隐藏层，最后通过输出层的四个神经元分别识别任务1和任务2的数字“0，1”或者“T-shirt，裤子”（图源：笔者根据论文实现的可视化）

任务设置：双任务连续学习，模拟大脑的持续学习与遗忘：

任务 1：MNIST 手写数字二分类，仅保留数字 0、1 的样本，训练集 12665 张，测试集 2115 张；
任务 2：FashionMNIST 服饰二分类，仅保留 T 恤、裤子的样本，训练集 12000 张，测试集 2000 张。

训练流程：

阶段 1：仅用任务 1 数据训练模型 5 个 epoch，直至任务 1 测试精度达到 99%，此时模型已完整写入任务 1 的所有键值记忆；
阶段 2：冻结任务 1 对应的权重路径，仅用任务 2 数据训练模型 5 个 epoch，直至任务 2 测试精度达到 95%，全程不接触任务 1 的任何训练数据。

核心干预操作：训练完全终止后，引入光遗传学强度系数 β≥1，仅在推理阶段放大任务 1 对应的键值记忆分量，全程无反向传播、无重新训练、无任务 1 数据输入，仅通过调整 β 测试任务 1 的精度变化。

这里的「光遗传学强度」是严格的类比：神经科学中，光遗传学技术通过激光精准激活海马体中编码记忆的沉默印迹细胞，即可唤醒失忆动物的记忆；而这里的 β 系数，正是模拟激光的激活强度 ——β 越大，对任务 1 记忆的检索增益越强。

3.2.2的具体实现

在一个分类任务上，突然出现了“光遗传学强度”这样非常生物的表述，的确是令人费解的。那么论文到底是如何实现“仅在推理阶段放大任务 1 对应的键值记忆分量”这一操作的？事实上并不困难，我们知道，通过梯度下降更新的权重实际上是以加法的形式进行作用的，即：

那么，我们只需要干两件事： 1. 分别定义两个Layer去学习Task1和Task2，分别得到两个任务的权重变化量。

在进行学习的前向传播过程中，自然还是使用Wfinal，只不过为Wtask1乘上一个系数β。

代码实现也相当简单：

        return out

4.2.3 实验结果

Fig.4 Forgetting and reactivation of memory events (图源[1])

从左图中我们可以看出，模型完成任务 2 的训练后，任务 1 的测试精度从初始的 99% 暴跌至 9%，接近随机猜测的水平，完美复现了连续学习中的经典灾难性遗忘现象。

但根据前文的推导，任务 1 的所有键值对，已经完整、无损地累加到了权重矩阵中，训练任务 2 的过程仅新增了任务 2 的键值对，未对任务 1 的记忆做任何修改、删除。此时任务 1 的精度暴跌，本质是任务 2 的键值对在检索中占据了主导，任务 1 的记忆被干扰淹没，成为了「沉默记忆」，而非记忆本身丢失。

于是，当我们观察右图：通过 β 系数放大任务 1 的键值记忆分量后，任务 1 的测试精度随 β 的增大呈现显著的单调回升，无需任何重新训练。当β=1.0（无干预，原始权重）时，任务 1 精度维持 9% 的遗忘状态；而当β=1.8时，精度回升至接近初始的 99%，完全恢复任务 1 的分类性能。

如果任务 1 的记忆真的在训练任务 2 时被覆盖、擦除，那么无论 β 放大多少倍，都不可能恢复任务 1 的精度。只有当任务 1 的所有键值对完整无损地保存在权重中，放大操作才会生效。而这也说明了，灾难性遗忘的核心原因，不是旧记忆被新记忆覆盖，而是旧记忆的检索优先级被新记忆干扰，导致检索失效。记忆本身始终完整存在，只是变成了无法被自然线索激活的沉默。

4. 结语

到这里，我们拆解了这篇打通脑科学与机器学习的核心研究。考虑到读者群体以及受限于笔者本身水平，这篇解读并非完整的解读，仅选择了文中笔者认为惊艳的部分，并强烈建议感兴趣的读者阅读原文。

论文提出的这套统一键值记忆框架，为我们理解大脑记忆机制提供了一套自洽的跨学科视角：在该框架下，海马体与新皮层的分工可被对应为键值记忆的寻址编码与内容存储，而日常的遗忘现象，也可被解释为检索通路的失效，而非记忆内容的永久丢失。同时，这套框架也为理解深度学习模型的学习与遗忘行为提供了统一的解释逻辑：从 Transformer 的自注意力机制，到最基础的 MLP，都可被等价重写为键值记忆的形式；而领域内长期关注的灾难性遗忘问题，在该框架下也可被归因于检索干扰，而非记忆内容的擦除。

人工与自然智能在记忆机制上的惊人收敛，为两个领域的交叉发展打开了全新思路。

参考文献

原论文代码：https://github.com/kazuki-irie/kv-memory-brain

Tensorflow MNIST数据集官网：https://tensorflow.google.cn/datasets/catalog/mnist

[1]Gershman et al., Key-value memory in the brain, Neuron (2025), https://doi.org/10.1016/j.neuron.2025.02.029

[2]Kohonen, T. (1972). Correlation matrix memories. IEEE Trans. Comput. C–21, 353–359. https://doi.org/10.1109/TC.1972.5008975.

[3]McClelland, J.L., McNaughton, B.L., and O’Reilly, R.C. (1995). Why there are complementary learning systems in the hippocampus and neocortex: insights from the successes and failures of connectionist models of learning and memory. Psychol. Rev. 102, 419–457. https://doi.org/10. 1037/0033-295X.102.3.419.

[4]Winocur, G., Frankland, P.W., Sekeres, M., Fogel, S., and Moscovitch, M. (2009). Changes in context-specificity during memory reconsolidation: selective effects of hippocampal lesions. Learn. Mem. 16, 722–729. https://doi.org/10.1101/lm.1447209.

[5]Wiltgen, B.J., Zhou, M., Cai, Y., Balaji, J., Karlsson, M.G., Parivash, S.N., Li, W., and Silva, A.J. (2010). The hippocampus plays a selective role in the retrieval of detailed contextual memories. Curr. Biol. 20, 13361344. https://doi.org/10.1016/j.cub.2010.06.068.

[6]Chanales, A.J.H., Oza, A., Favila, S.E., and Kuhl, B.A. (2017). Overlap among spatial memories triggers repulsion of hippocampal representations. Curr. Biol. 27, 2307–2317.e5. https://doi.org/10.1016/j.cub.2017. 06.057.

[7]Shiffrin, R.M. (1970). Forgetting: Trace erosion or retrieval failure? Science 168, 1601–1603. https://doi.org/10.1126/science.168.3939.1601.

[8]Irie, K., Csorda ́ s, R., and Schmidhuber, J. (2022). The dual form of neural networks revisited: Connecting test time predictions to training patterns via spotlights of attention. In International Conference on Machine Learning, pp. 9639–9659.

参考文献可上下滑动查看

计算神经科学第三季读书会

从单个神经元的放电到全脑范围的意识涌现，理解智能的本质与演化始终是一个关于尺度的问题。更值得深思的是，无论是微观的突触可塑性、介观的皮层模块自组织，还是宏观的全局信息广播，不同尺度的动力学过程都在共同塑造着认知与意识。这说明，对心智的研究从最初就必须直面一个核心挑战：局部的神经活动如何整合为统一的体验？局域的网络连接又如何支撑灵活的智能行为？

继「」与「」读书会后，集智俱乐部联合来自数学、物理学、生物学、神经科学和计算机的一线研究者共同发起，跨越微观、介观与宏观的视角，探索意识与智能的跨尺度计算、演化与涌现。重点探讨物理规律与人工智能如何帮助我们认识神经动力学，以及神经活动跨尺度的计算与演化如何构建微观与宏观、结构与功能之间的桥梁。

详情请见：