神经科学与机器学习，正在交换彼此最坏的习惯？| 万字访谈|万字访谈|人工智能|心理学|神经科学|算法|贝叶斯

来源：专知

作者

Samuel Gershman

哈佛大学心理学教授

哈佛大学心理学系和脑科学中心的教授。他的实验室研究学习、记忆、决策和感知的计算机制。他同时也是哈佛大学肯普纳自然与人工智能研究所的成员。著有What Makes Us Smart: The Computational Logic of Human Cognition. Gershman实验室的研究旨在了解个体如何获得关于环境的复杂结构化知识，以及这些知识如何帮助个体形成适应性行为。该实验室结合行为学、神经影像学和计算技术来探索这些问题。

机器学习和神经科学正在双向奔赴

就像大多数科学领域那样，神经科学一直致力于为经验现象寻找因果解释。而机器学习领域历史上则侧重于构建能进行预测的系统。然而最近，两者的界限正在逐渐模糊：神经科学越来越关注预测问题，并越来越多地采用机器学习方法；而机器学习也越来越关注因果解释，并越来越多地借鉴神经科学的研究方法。

在讨论这种角色互换的影响之前，让我们先来看几个例子。Brain-Score，一个根据模型预测神经反应能力来评估模型的项目，它体现了神经科学正在向预测性学科演进。该平台包含一组定量基准（如神经记录数据）以及模型排行榜。与之并行的、受机器学习启发的另一项努力，则是为神经科学开发"基座模型"（foundation models），这些模型在海量神经数据上进行训练，并以其预测能力作为检验标准。

▷https://www.brain-score.org/

在机器学习领域，随着其向解释性学科的转型，机制可解释性（mechanistic interpretability）研究应运而生，它的野心，旨在识别那些为预测任务而训练的机器学习系统的内部运行机制。与早期专注于识别输入与输出之间关系的可解释性研究不同（例如，解释为何系统拒绝给某人贷款而批准给另一人），机制可解释性研究致力于探索系统内部计算元件之间的关系。它与神经科学的血脉相连毫不掩饰，甚至妄图在人工系统中复刻一场“连接组学”研究。正如Anthropic联合创始人Chris Olah及其同事在2020年的一篇在线评论中所写：

▷https://distill.pub/2020/circuits/zoom-in/

如果我们把（人工神经网络中的）单个神经元、甚至单个权重当作值得认真研究的对象，会怎样？如果我们愿意花费数千小时追踪每一个神经元及其连接，会怎样？那将会呈现出怎样一幅神经网络的图景？

神经科学家热情地回应了这一号召[1]，带来了他们的工具、理念和解释框架。这包括对单神经元调谐和群体水平表征相似性的分析，以及非线性动力学和环路消融（circuit ablations）等多种研究方法。即使机器学习研究者并未明确借用神经科学的工具，他们往往也会重新发明出类似的方法。

然而，我认为机器学习转向可解释可能并不会让我们更接近理解神经系统的本质；如果在神经科学中用预测完全取代解释，我们将不得不牺牲珍贵的科学洞见。同时，机器学习中的解释也注定会遇到与神经科学解释相同的难题，即那些错综复杂的巨型系统，根本不会轻易向神经科学的常规解剖刀屈服。具有讽刺意味的是，这一点早已被机器学习研究者（以及少数哲学家）所认识，却至今未能渗透到神经科学的学术话语体系中。

用预测代替解释在神经科学中存在障碍

预测与解释之间的张力是哲学、统计学和社会科学中反复出现的主题。从历史上看，科学一直致力于为自然现象寻找机制性的因果解释——例如，解释为何左旋多巴（L-DOPA）通过提高多巴胺水平能够改善帕金森病的症状。在系统神经科学中，因果-机制性解释通常是"环路机制（circuit mechanisms）"。这同样是机器学习中机制可解释性研究的灵感来源。即通过兴奋性和抑制性相互作用来解释特定功能的神经元模块。例如，眼球位置之所以能保持稳定，其背后的因果机制便被认为是一个由递归连接神经元编织而成的网络[2]，该网络实现了一种线吸引子（line attractor）。

神经科学中的机制性因果解释，如同其他科学领域一样，试图摒弃那些可能对预测有用但属于"虚假相关"的因素。例如，左旋多巴可能产生副作用，如不自主运动和头痛，这些副作用与其改善帕金森症状的效果存在相关性。机器学习算法或许能够从副作用"预测"出治疗效果，但任何一个心智正常的人都清楚：副作用绝不是疗效的“因”。如果仅针对副作用进行治疗（例如服用泰诺缓解头痛），而不去触碰那个假设的因果机制（即多巴胺），那么帕金森症状不会发生改变。

尽管上述例子似乎说明预测与因果-机制性解释之间存在显著差异，但当前机器学习和统计学领域的观点将二者联系起来。机制性的因果解释本质上是一种"不变预测"（invariant prediction）。预测算法或许能够利用观测数据中的虚假相关性，但在某些干预条件下（如上述泰诺的例子），这种预测注定会原形毕露。而因果机制则是那些即使在剔除虚假相关后依然成立的预测关系。

不变预测可能是因果性的必要条件，但它本身并不能揭示因果机制。要理解因果机制，需要对系统的组成部分进行测量和操控，以确定哪些预测关系在哪些干预条件下能够持续成立。因此，如果神经科学家仍将解释视为目标，那么纯粹聚焦于预测（如 Brain-Score 和神经基础模型）将无法取代解释性工作。

出于对系统对齐（alignment）、安全性以及排障等多方面的关切，机器学习研究者已经认识到，采用更具干预性的方法来研究机制性因果解释具有重要意义。其中最具影响力的方法基于"环路假说"（circuit hypothesis）[3]，即人工网络中的特定子网络，在暗中驱动着特定的行为。神经科学似乎为识别这类环路提供了完美的工具包：包括单神经元和群体水平的调谐分析、脑刺激以及消融/敲除技术等。然而，一些悲观的研究[4]结果表明，在试图将系统还原为环路时，我们注定会撞上难以逾越的"复杂性壁垒"。在最坏情况下，要全面在环路层面理解一个神经系统，我们所需的干预次数（如沉默神经元子集）会随着神经元数量呈指数级增长[5]。这种计算上的不可处理性[6]甚至在对神经网络中环路的近似理解上也存在。

神经科学中另一个备受珍视的假设是：干预可用于确立功能定位。例如刺激或沉默特定神经元能以特定方式改变系统行为，研究者通常会推断正是这些神经元，在功能上主宰了这种改变。但来自机器学习的证据[7]表明，这种粗暴的操作，可能产生"定位错觉"（localization illusions），即干预错误地将某个子网络与特定功能关联起来。此外，你甚至可以通过修改功能定位所识别子网络之外的其它突触权重[8]，来以特定方式改变系统输出。另一个悲观的研究结果表明，神经科学中广泛使用的降维技术可能炮制出"可解释性错觉"[9]：即使低维表征能够充分概括模型在训练数据上的行为，但一旦将模型放到新数据分布上进行测试时，这些表征也可能失效。

这些观察结果，理应让那些妄图用神经科学工具来拯救机器学习的人，惊出一身冷汗。同样，它们也理应让那些迷信这些工具能拯救神经科学自身的人，彻底清醒。事实上，早在近十年前，学界便已心知肚明：面对哪怕只有中等复杂度的计算电路，神经科学工具都可能束手无策[10]。然而，这些工具仍在神经科学中持续使用，主要原因在于我们尚未设计出更好的替代方案。

最后，我们应当更积极些。我们必须承认：机器学习与神经科学之间的对话非常有价值，哪怕仅仅是因为它揭示了我们工具的局限性和假设的脆弱性。机器学习与神经科学间的持续对话，有望成为新方法的起点。

为了更广泛地了解神经科学界如何看待预测和解释的关系，我邀请了八位神经科学家就以下几个问题发表见解：在神经科学中，我们能否用预测取代解释？环路映射是否足以作为深度学习的解释框架？它是否也足以作为神经科学自身的解释框架？

专家观点

Trenton Bricken（Anthropic）

▷Trenton Bricken，Anthropic对齐科学团队的技术人员。他目前正在帮助Claude实现自动审核和检测对准偏差的功能。

对神经科学家而言，如果能在几天内记录到数万个神经元的数据，就已经谢天谢地了。这些数据通常带有噪声，而且大多只能从执行简单任务的小型哺乳动物身上获取。与此同时，像Claude和GPT这样的大语言模型，能够以人类水平甚至更高水平执行多种任务，拥有对世界的丰富表征，并且可以确定性地进行研究——我们可以访问它们的每一个神经元和神经连接。这种极其丰富的数据源，加上大语言模型日益增强的能力，推动了本文所讨论的"机制可解释性"研究。

尽管神经科学家有充分的理由去质疑LLM与生物大脑之间的鸿沟，但我认为二者存在一些重叠的核心计算原理。其中之一便是信息的表征与存储方式。生物大脑和大模型所学到的"事物"数量都远远超过其神经元或连接的数量。为了存储这些信息（如事实、记忆、关联等），它们必须找到某种方式将信息高效压缩为低维表征。研究表明，LLM以"叠加态"（superposition）编码信息：每条信息并非存储于单个神经元中，而是表现为多个神经元激活的模式（在神经科学中，这被称为群体编码）。为了逆向工程这种压缩机制，一种名为稀疏自编码器（sparse autoencoders）的算法将压缩后的低维表征重新投影到高维空间——例如，将Claude 3 Sonnet的单个层分解为3000万个独特方向，每个方向对应一个可解释的概念，如金门大桥。这是一个大模型必须解决的、大脑同样需要面对的核心计算问题；在人工智能领域攻克这一问题，很可能开发出有助于理解生物智能的算法。随着神经科学记录技术的扩展，这些工具或许也能同样强大地用于解码生物的神经表征。

Jenelle Feather 卡内基梅隆大学

▷卡内基梅隆大学神经科学研究所和心理学系的助理教授，她领导着计算感知实验室。她的实验室位于神经科学、认知科学和人工智能的交叉领域，致力于研究感知背后的复杂神经模式。通过将计算模型与生物系统进行比较，她的研究旨在揭示感知的基本原理，找出当前人工智能与人类经验的差异，并改进我们对生物大脑的模型。

神经科学与机器学习有着深厚交织的历史。近年来，这两个领域的部分边界甚至变得更加模糊。在这篇专栏中，Sam Gershman探讨了当神经科学转向机器学习时会发生什么，并对预测模型日益强调神经活动的趋势提出了质疑。虽然我同样对盲目依赖这些"数字孪生"持谨慎态度，但我对高保真预测模型在新时代如何推进我们对神经处理的理解持更乐观的看法。

一个预测模型，本质上就是将“计算是如何实现的”或“表征是如何涌现的”这一抽象假设，强行具象化。模型可以针对不同分析层次构建，例如通过抽象掉生物实现细节，或尝试显式地将这些细节纳入其中。如果模型无法预测观测数据，那么模型中实例化的假设就被证伪了。但如果模型成功了呢？该文指出的"虚假相关"（或"捷径学习"）很有意义。模型预测出了正确答案，但原因却是错误的。但这并非完全放弃预测模型的理由。相反，这要求我们作为科学家，严谨地设计实验，尝试"攻破"预测模型中的虚假相关。

Brain-Score和神经科学中的基座模型已经在朝这个方向迈进，例如通过"分布外"（out-of-distribution）样本进行测试。关键在于，机器学习模型可能庞大而复杂，但它并非黑箱。计算机模拟实验提供了效率与可控性。我们可以运行大量模拟、执行精确消融、从模型本身推导目标刺激，或更改训练数据以进行计算上受控的"饲养实验（rearing experiment）"。通过这种方式，我们可以引导更高效的生物数据收集，并揭示现有神经表征假设中潜在的混淆因素。

上述"数字孪生"在工程方法上具有巨大潜力。例如，可以利用预测模型开发新的、个性化的神经仿真算法，如人工耳蜗或皮层刺激。但我们也可以直接使用模型来检测神经表征。我们可以合成能够驱动特定神经元群体的刺激，或剖析不同生物模体的必要性。尽管这可能需要开发在这些复杂系统中表现更好的新工具和分析技术（正如"机制可解释性"研究所尝试的那样），但计算模型为在真实生物数据上测试新分析方法提供了理论基础。

Konrad Körding（宾夕法尼亚大学）

▷法尼亚大学知识整合（PIK）神经科学教授，也是 Neuromatch 和严谨社区的联合创始人。他因在运动控制、神经数据方法和计算神经科学领域的贡献，以及在开放科学和科学严谨性倡导和贡献方面而闻名。他的研究结合了实验方法与计算原理的应用。他的工作主要基于规范模型的概念，特别是贝叶斯统计。为了预测科学家的未来成功，由此开发出一款可预测 10 年后 h 指数的应用。他的实验工作涉及运动学习和运动控制，将这些现象与贝叶斯思想联系起来。最近，他专注于分析神经数据并获得大规模神经数据集。他是神经科学研究范式转变的频繁倡导者，并发表了多篇关于深度学习在神经科学应用的论文。

我们正在目睹两个学科交换彼此最糟糕的习惯：神经科学将基准预测误认为理解，而机器学习则将描述机制的语言误认为机制本身。我认为神经科学和机器学习可能混淆的警告是有意义的，而最清晰的应对方式是将预测（即使是某种程度上的不变预测）与因果推断区分开来。

预测（即正向问题）要求找到一个函数，将测量值x映射到结果y。因果推断（或逆向问题）则追问：被测系统中哪些部分实际影响结果，以及如何改变它们以产生更好的结果。这两个问题都写作y=f(x)，这有些令人遗憾，因为它们本质上是不同的问题。这不仅是目标不同，它们的几何结构也不同。

预测不要求一一对应，因为相关变量可以相互替代。如果两个神经元（或两个基因）高度相关，许多模型都能做出同样好的预测，但对"贡献"的分配却大相径庭。数据通常集中在少数维度上，且在x的各维度间高度相关。这些相关性使预测更容易——我们只需在数据通常所在的"流形"（manifold）上做出良好预测即可。

因果推断之所以困难，原因也恰恰相同。逆向求解，意味着你需要在存在相关性的情况下，区分直接效应与间接效应，这隐式或显式地意味着要对相关结构求逆。当这个结构病态时，微小的估计误差都可能导致推断出的因果因素出现巨大波动。良好的预测往往恰恰标志着那些使因果推断变得困难的条件：即可自由相互替代的强相关性。

还有一点可以强化前文关于"因果性即不变预测"的讨论。在实践中，不变性几乎总是局部的：我们通常在具有轻微分布偏移的相似数据集上验证稳定性，而非进行真正的因果干预。毕竟，此类干预成本高昂。这种局部的不变性固然有用，但它主要证明的是不同情境的相似性。相比之下，因果性之所以享有盛誉，是因为它追求更大范围的泛化能力：即在广泛类别的干预下仍能保持稳定的关系，因为这些关系反映了系统产生效应的机制。

这给我们的现实教训是，：在谈论不变性时，必须划定它的疆域：涉及哪些干预、程度如何、基于何种假设。前文提到的复杂性壁垒强化了这一观点。如果对神经系统全面的环路理解需要与神经元数量呈指数关系的干预次数，那么实用的"不变预测"仅在我们实际探测过的干预空间的微小范围内保持不变。考虑到我们在神经科学中进行实验的方式，我们通常只对大脑进行轻微扰动，那我们可能对大脑如何响应真正新颖的刺激知之甚少。这只是一个关于局部稳定性的陈述，而非关于我们尚未实施（且可能无力实施）的干预下依然成立的真实因果结构。

John Pearson（杜克大学）

▷杜克大学神经生物学副教授，他的实验室专注于理论和计算神经科学，并将其应用于视觉、运动控制和自然行为。

大脑并不欠我们一个解释。面对大脑这样的递归非线性动力系统，没有任何东西暗示它必然能被我们以可推理的方式描述。然而，零散地、出人意料地，不可能之事确实发生了：我们确实时不时地对事物产生一些理解。在灵长类动物的眼动系统、果蝇的中央复合体、鸣禽的学习回路以及许多物种的视网膜中，我们至少已经获得了脑功能理解的初稿。所有这些都在说明：如果我们仅凭人工神经网络的可解释性表象来判断，世界可能显得比实际情况更为不可知。

但为什么会这样呢？让我抛出两个答案。首先，我们在解释那些在显著约束下运行的系统方面取得了相对更大的成功。这些约束可以是信息相关的（例如早期感觉系统需要有选择地压缩周围世界），也可以是结构性的（如果蝇导航系统需要高度特异的输入），但在所有情况下，神经科学拿到了一个远比通用神经网络简单得多的模型，正是这种简洁性使得实验者和理论家能够阐明其功能的组织原则。

第二个答案当然是进化。更具体地说，尽管突变是随机的，但进化所探索的景观却是高度结构化的。神经系统必须通过基因指定的程序发育而成，这一事实确保了最终形成的连接组类型受到组织生物物理学、局部性、稀疏性和细胞类型等多重约束。这些网络并非随机初始化，而是经过发育过程调优的，能够在出生时就执行基本的、往往相当复杂的行为。

因此，神经科学家发现自己处于比预期更有利的位置。是的，脑功能极其复杂，其中大部分在很长一段时间内对我们而言仍将晦涩难懂。但这种复杂性是通过微调与修饰逐步累积而成的，且必须按照发育逻辑构建，这一事实应当成为乐观的来源。也许在这种情况下，大脑的复杂性不必像斩断戈尔迪之结（Gordian knot是西方传说中的物品，神谕称能解开此结者将成为亚细亚之王）那样一刀斩断，我们完全可以像洋葱一样层层剥开。

Xaq Pitkow（卡内基梅隆大学）

▷卡内基梅隆大学计算神经科学副教授。他是一位计算神经科学家，致力于发展大脑的数学理论和智能系统的一般原理。他主要研究分布式非线性神经计算如何利用统计算法来指导自然情境下的行为。他开发了在合成智能体上验证过的新型分析方法，并与实验人员密切合作，利用真实数据检验理论。

本文就神经科学方法应用于机器学习，以及机器学习方法应用与神经科学的局限性提出了重要观点。文中的两个主要论点是：预测不能取代解释，且解释对于复杂系统而言是难以处理的。我想提供一个更为乐观的反论点：一旦我们认识到解释真正提供的是什么——泛化能力，文中提到的两个论点所带来的问题就会迎刃而解。

机制性的因果解释，其根本价值不在于它将系统分解为组成部分，而在于它使我们能够在新条件下进行预测——跨越干预、分布偏移和不同任务类别。这包括前文提到的不变预测。但如果解释的价值在于其泛化能力，那么预测与解释之间根本不存在张力：解释正是使预测得以泛化的关键。前文讨论的定位错觉和可解释性错觉确实存在，但它们反映的是未能在足够严格的泛化条件下进行测试，从而未能暴露出错误的结构。

通过泛化视角重新界定因果解释的尝试，也能回应关于神经的环路解释所遇到的复杂性壁垒。该文引用了最坏情况分析，但分析中的复杂性上限假设任何神经环路都是可能的。真实的神经系统，无论是生物的还是人工的都具有丰富的结构，如稀疏连接和低阶交互，将这些约束作为预设条件，可使对神经系统的环路层面解释比最坏情况所暗示的更容易处理。退一万步讲，无论对神经系统的精确环路还原是否可行，它都不是神经科学对应解释产生影响的唯一层次。恰当的解释层次，是那个能在我们关注的领域内提供充分泛化能力的层次。

基座模型提供了一个有趣的例子。它们解释了什么吗？许多机制上截然不同的网络可以在自然任务上产生相同的输入-输出行为，甚至可以共享潜在的动力学特性，这使得即使对于某些泛化任务而言，精确的环路还原也并非必要（当然，对于模型中不存在的环路元件的干预泛化除外）。许多解释性约束可以在没有详细机制的情况下依然有效，特别是在表征层面或对资源与行为的规范性约束层面。这些约束仍然可以是因果性的，至少可视为亚里士多德笔下的"目的因"（telos，即目的）。基座模型提供的是真正的解释：它们能够泛化、可被证伪，并告诉我们系统为何有效。它们只是不是环路图。在领域相关任务内具有功能等效性，相比完整因果机制属于更弱的标准，但事实证明，对于许多关于复杂系统的问题而言，这正是恰当的分析层次。

因此，挑战不在于在预测与解释之间做选择，而在于识别那个能在科学相关领域内实现泛化的描述层次，并设计足够强有力的检验来论证其泛化能力。这正是神经科学与机器学习互动最具价值之处。

Gemma Roig（法兰克福歌德大学）

▷法兰克福歌德大学计算机科学系的教授。hessian.AI 成员，并隶属于麻省理工学院脑、心智与机器研究中心。

神经科学与人工智能之间日益增强的融合，已将神经科学推向一个以预测为主的学科，从而引发了关于解释与因果性的问题。现代深度学习模型如今被广泛用于预测脑活动，并在人工系统与生物系统之间比较表征，尤其在感觉和语言领域。将模型约束于生物数据，预期能系统性地提升任务性能与模型鲁棒性，但这尚未完全实现。相反，人工智能领域已在很大程度上将可解释的努力方向转向开会事后分析工具（其中许多受神经科学启发），以探究那些原本不透明模型的内部运作机制。

尽管人工智能模型高度复杂，但它们仍然是计算抽象，省略了生物神经系统的许多结构与动力学特性。表征对齐和预测准确性虽具信息价值，但不足以确立机制性或因果性解释。例如，可解释性工具揭示的表征对齐能带来可观的改进，其源头可能是间接的训练动力学或模型架构，而非这些工具被认为能够揭示的机制。

尽管存在这些局限，人工智能模型的简化性与可控性构成了方法论上的优势。与生物系统不同，人工智能模型可以直接被干预：组件可以被移除、修改或重新训练，学习动态可以被系统性地改变。此类干预使得受控的因果测试和混淆因素的系统性识别成为可能，从而能够评估对观测行为或表征的替代性解释。尽管这些操作可能无法直接映射到生物系统，但它们可以为因果假设的构建提供信息，而这些假设在神经科学中往往难以直接检验。当前神经科学对预测的强调是合理的，因为它提供了必要的经验约束。强大的预测性能为解释提供了最低限度的经验基础。虽然预测本身并不能确立机制，但没有它，关于机制的主张将缺乏坚实基础。

未来的进展需要将可解释性方法与显式的机制分析相结合，而非将对齐或预测视为终点。研究不应仅聚焦于预测和表征对齐，而应针对特定认知功能，深入探究模型实现该功能的内部环路、转换过程和学习到的结构。

Naomi Saphra（哈佛大学）

▷哈佛大学肯普纳研究所的研究员，并将于2026年入职波士顿大学任教。她致力于通过实证研究理解语言模型的训练过程：模型何时学会编码语言模式或其他结构？这又能告诉我们模型的工作原理和原因吗？我们能否将有用的归纳偏差编码到训练过程中？近期，她开始与自然科学家和社会科学家合作，利用可解释性来理解我们周围的世界。

预测可以展示我们的理解，但前提是我们真正理解用于做出这些预测的系统。如果我们从观测数据中训练一个黑箱模型，并发现它能成功预测行为，那么我们拥有的只是第二个黑箱模型——这与我们一无所知的起点相比几乎毫无改进。然而，如果我们能够基于对计算主体构建的直观仿真，再用这个仿真做出预测，那么即使这些直观仿真未能反映主体的因果机制，它们（在某种程度上）也是正确的。我们的直观仿真已在计算层面整体性地描述了计算主体，即便未涉及其组件实现。

另一方面，即使我们成功识别了因果机制，我们可能仍然与之前一样毫无进展，正如本文通过强调可解释性错觉所指出的那样。如果人类无法理解产生机制的结构，或者我们对干预如何生效的解释存在缺陷，那么新加的解释不过是添加的第二个黑箱，而非增进对计算主体的理解。

无论是大脑、大语言模型还是其他任何过程，什么才算理解一个系统了？关键不在于我们的描述是因果性的还是预测性的，而在于描述本身是否被理解。

坏消息是，这一属性本质上是主观的。有些人可能直观地理解一个系统的精确数学描述，而另一些人则只能凭信念接受这种直观的存在。因此，一个人不可能确定地知道一个新的描述是否推进了人类的理解，除非它首先推进了其个人的理解。

然而，即使人类无法理解包含十亿参数的模拟，也有好消息。即使黑箱描述不能直接增进我们的理解，它也可能允许我们使用原始主体所不具备的新工具。基于这一假设，任何预测性描述都有潜力推进我们的理解。问题依然存在：什么样的描述能增进我们的理解？

James Whittington（牛津大学）

▷牛津大学的首席研究员，领导着一个研究人工智能和神经科学基础的团队。他拥有牛津大学的物理学、医学和神经科学学位。他曾在人工智能初创公司和大型科技公司工作，目前为多家人工智能科技公司提供咨询服务。他是Thinking About Thinking非营利组织的联合创始人，负责组织该组织的科学议程以及每年举办的多个峰会和会议的议程安排。

人工神经网络极其强大但难以解释，这与它们的生物对应物（大脑）非常相似。然而，由于它们在从输入x预测输出y方面的高效性，我们正在神经科学的许多数据上进入一种"闭嘴，只做训练"的范式（这与量子物理学中"闭嘴，只做计算"的心态相呼应）。本文正确地质疑了这种以可理解性换取预测能力的权衡。

不可解释的模型与过去几十年间的传统神经科学模型形成了鲜明对比，那时的模型大多是手工构建且具有因果性的。贝叶斯模型就是这种方法的典范：根据因果模型y=f(z)，从数据y中推断变量z的分布。因果性思维不仅更具可解释性，而且能自然地处理"分布外"数据，而这正是真正理解的标志。

这正是预测模型的症结所在。没有因果模型，成功的预测可能依赖于与真正因果变量相关的变量，而这会阻碍泛化。阅读阿加莎·克里斯蒂的小说可能让你（或一个大语言模型）擅长预测她另一部小说中的凶手，因为你理解了她的写作风格，但这并不会让你（或一个大语言模型）成为侦探，因为阿加莎·克里斯蒂很可能并未策划现实中的谋杀案。

不变预测试图通过识别跨情境持续存在的预测关系（谋杀的因果逻辑），并忽略那些变化的关系（作者的写作风格）来缓解这一问题。然而，收集足够多情境的数据以确定相关性是否虚假并非易事，而且即便能够收集足够多的数据，神经网络学到的因果模型很可能也不适用于可解释性技术。

元学习只是将"分布外"问题提升了一个层次：模型在不同任务结构上保持灵活性要求训练集中包含多样化的结构。这仍然是预测，但处于一个有助于理解下一层次因果关系的抽象水平。不依赖对我们不理解的数据进行事后解释，所要付出的代价便是逐块构建理解。

最终，预测和因果模型处于光谱的两端，二者对进步都至关重要。尽管大模型上的机制的可解释性或 Brain-Score 等基座模型的预测往往缺乏因果深度，但它们处理的是超出当前因果理解极限的问题，这能够为那些从事更细致因果解释工作的人提供更有价值的成果。

译者的话

在当前AI4Science的浪潮中，用AI为某某学科构建预测模型，性能超越人类科学家构建的模型SOTA已屡见不鲜。然而正如该文所论述，至少在神经科学在，预测不等于理解。理解不止是做出可泛化的预测，还包括对运行机制在合适的抽象层级给出清晰的结构描述，而何为合适，什么才算清晰是人定义的。从这个意义上来看，AI4Science即使在构建预测模型上1天完成一个博士生一年的工作量，也不能完全的取代科学家。

这么说不是说AI构建的模型没有价值，科学需要不断超越当前因果理解的极限，而实现这一目标的方法是逐层次地，分块地构建因果性的机制模型。AI孜孜不倦构建的理解预测模型及对应的过程可视化，将给科学家提供更丰富的素材来构建因果模型。AI的作用如同显微镜/望远镜，让科学家能够看得更细/更远。

1 https://www.sciencedirect.com/science/article/pii/S1389041723000906?via%3Dihub

2 https://doi.org/10.1073/pnas.93.23.13339

3 https://proceedings.neurips.cc/paper_files/paper/2024/file/abccb8a90b30d45b948360ba41f5a20f-Paper-Conference.pdf

4 https://doi.org/10.1007/s11229-023-04366-1

5 https://doi.org/10.1101/639724

6 https://doi.org/10.48550/arXiv.2410.08025

7 https://doi.org/10.48550/arXiv.2502.11447

8 https://proceedings.neurips.cc/paper_files/paper/2023/hash/3927bbdcf0e8d1fa8aa23c26f358a281-Abstract-Conference.html

9 https://doi.org/10.48550/arXiv.2312.03656

10 https://doi.org/10.1371/journal.pcbi.1005268

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是 “21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）