Nature最新机制研究 | 把大脑模型压缩5000倍：DNN如何从“能预测”走向“能解释”|dnn|实验|滤波器|神经元|神经网络

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注，点亮星标 ⭐️

第一时间接收每日前沿资讯

认知神经科学前沿文献分享

基本信息：

Title:Compact deep neural network models of the visual cortex

发表时间：2026.2.25

Journal:Nature

影响因子：48.5

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

我们常说“看见”很简单：眼睛把图像送进大脑，我们就能认出物体、判断形状与材质。但对神经科学来说，真正棘手的是把这条路径写成可检验的计算过程：给定任意一张图片，能不能准确预测其视觉反应？

在初级视觉皮层V1，经典的线性-非线性模型）还能抓住不少规律；可一旦走到更高阶的视觉区，比如V4或IT，神经元对曲率、纹理、局部组合特征等更复杂的信息敏感，简单模型往往全面失效。

过去十年，深度神经网络（DNN）成为最强“预测器”：它们能把图片映射到神经反应，效果经常优于传统模型。但新的问题随之出现：这些DNN动辄上千万、上亿参数，预测是准了，却像一团难以拆解的“黑箱”。如果我们想从模型里读出“皮层到底在算什么”，光靠堆参数并不理想。

这篇Nature的工作直面一个关键矛盾：预测能力和可解释性/简约性（parsimony）能否兼得？作者先用闭环实验把预测性能推到很高，再把一个约6000万参数的模型系统性压缩到约5000倍更小、仍保持接近准确度的“紧凑模型（compact model）”。更重要的是：压缩后的模型小到可以逐层检查滤波器（filters）与中间表征，从而把“模型为什么对某类刺激敏感”讲清楚，并进一步提出可以被解剖与电生理验证的回路假设（circuit hypothesis）。这相当于把“能预测”推进到“能解释、能提假说”。

实验设计与方法逻辑

作者先构建一个高性能“教师模型（teacher model）”：以ResNet50为任务驱动骨干（task-driven backbone）抽取中层特征，再接一个数据驱动的深度集成（deep ensemble）来拟合V4神经反应，并用集成分歧（ensemble disagreement）做主动学习（active learning）在闭环实验中挑选最能提升模型的图片。

随后用知识蒸馏（knowledge distillation）把教师模型在海量图像上的输出“教”给小网络，再通过剪枝（pruning）迭代删除贡献小的卷积滤波器，直到性能只下降约5%，得到每个神经元一个可审计的紧凑模型。

核心发现

发现1：闭环训练把V4预测推到新高度

作者的混合模型把任务驱动特征（ResNet50）与数据驱动拟合结合，在V4上获得更高的噪声校正解释度（noise-corrected R²），并且闭环挑图训练优于随机挑图：模型用“最不确定”的图片来更新自己（Fig.1c），把有限实验时间花在最有信息量的刺激上（Fig.1b–c）。这一步为后续压缩提供了“足够强”的教师模型基础。

Fig. 1: Identifying compact models of macaque V4 neurons.

发现2：6000万参数可压到约1万参数，性能仍接近

通过蒸馏+剪枝，作者把庞大的深度集成模型压缩到约5000倍更小，紧凑模型仍显著优于单纯任务驱动DNN（Fig.1e–f）。关键点在于：当目标是预测“单个/一小群神经元”时，大模型里大量滤波器对该任务是冗余或无关的；压缩不是“削弱模型”，而是在剔除与该神经元无关的计算分支。紧凑到可视化所有滤波器（Fig.1g）后，可解释性才真正可操作。

Fig. 1: Identifying compact models of macaque V4 neurons.

发现3：V4存在显著“整合/收敛步骤”

剪枝后的结构显示一个稳定的计算母题：早期层滤波器数量多、表征更相似，而在第3到第4层之间滤波器数骤降（Fig.3a），作者称为“整合/收敛步骤（consolidation step）”。用CKA（centred kernel alignment）比较不同神经元模型的内部表征，早期层相似度显著更高，后期层迅速分化（Fig.3b）。这提示：V4神经元可能共享一套高维“通用前端”，而差异主要来自后续如何把这些特征读出并压缩成少数通路。

Fig. 3 | Compact models specialize their feature selectivity via a consolidation step.

发现4：紧凑模型能给出点探测的可检验机制

作者挑选一个“点选择性（dot-selective）”模型，发现点大小选择性并非来自直觉上的中心-周围滤波器，而是在收敛步骤之后出现：层4的关键滤波器对点大小不变性贡献最大（用DSI，dot size invariance量化；Fig.4c–d），它通过读取层3中少数滤波器的组合活动实现点探测（Fig.4e）。

机制上，小点时多个“角/曲率”兴奋通道活动空间重叠且抑制弱，输出强；大点时兴奋重叠不足且“长边缘”抑制增强，输出低（Fig.4f–h）。这一读出平衡（excitatory corner-like vs inhibitory large-edge）直接导向可实验验证的回路假设。

Fig. 4 | Uncovering the computations of a dot-detecting compact model.

归纳总结和点评

这项研究把“预测神经反应”从单纯的性能竞赛推进到“可解释的机制建模”：先用闭环主动学习把V4预测做到足够强，再用蒸馏与剪枝把模型压缩到可逐层审计的规模，并从中提炼出跨神经元共享前端、在固定层位发生收敛并导致多样化特征选择的计算原则。更难得的是，作者用点探测案例把模型内部计算转写成清晰的机制链条与可检验假说，展示了DNN与系统神经科学之间更“互相成就”的范式：既要准，也要小，还要能解释。