Nat Neurosci重磅：卷积神经网络揭示听觉皮层的复杂非线性机制|卷积神经网络|听觉皮层|波形|神经元|非线性机制

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注，点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享

基本信息

Title:Convolutional neural network models describe the encoding subspace of local circuits in auditory cortex

发表时间：2026.2.23

发表期刊:Nature Neuroscience

影响因子：20.0

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

我们的大脑在嘈杂的日常环境中能够毫不费力地解析和组合极其复杂多变的声音信号。为了理解听觉系统是如何处理这些信息的，科学家们致力于构建各种感觉编码模型。近年来，随着深度学习的爆发，卷积神经网络在预测听觉皮层神经元活动方面的表现，已经远远碾压了传统的线性非线性模型。

然而，卷积神经网络具有极高的复杂性，这让人难以看清支持其性能的真实生物学计算过程。科学家们无法直接从这些具有庞大参数的模型中提取出真实的局部皮层神经回路特征。另一方面，传统的“子空间模型”虽然具有极高的可解释性，但由于自然声音包含高度复杂的统计相关性，这类模型在处理自然刺激时往往面临巨大的拟合困难。

难道高预测精度与高可解释性注定不可兼得吗？本研究巧妙地打破了这一僵局。研究团队提出了一种全新的降维方法，成功将复杂的卷积神经网络“压扁”成一个低维的子空间编码模型，既保留了深度学习的强大预测力，又清晰地揭示了听觉皮层局部回路的深层计算奥秘。

Fig. 1 | Mapping from CNN to subspace encoding models.

研究核心总结

研究人员首先在雪貂聆听海量自然声音时，记录了其听觉皮层多个层级的单神经元电生理活动。接着，他们利用这些单神经元数据训练了一个卷积神经网络，并通过对模型输入输出的动态梯度进行主成分分析，为每个神经元计算出了一个低维的“调谐子空间”。

Fig. 2 | Equivalent performance of CNN and subspace encoding models.

兼顾精度与可解释性

结果显示，通过对子空间投影进行非线性组合后形成的新模型，在预测神经元放电活动时的准确率几乎与完整的卷积神经网络不相上下。这表明，原本错综复杂的神经网络模型，在功能上完全等效于一个更为精简、结构清晰的子空间模型。

Fig. 3 | Diversity of subspace models within a single recording site.

局部神经回路的稀疏平铺机制

通过分析这些训练好的模型，研究表明，位于同一个皮层记录位点内的相邻神经元群体，通常共享一个相似的底层刺激调谐子空间。然而，每个神经元在这个共享空间内的高响应区域却是高度分散且互不重叠的。

这种稀疏平铺的机制解释了为何接收相似输入的相邻神经元却表现出截然不同的放电模式，暗示了局部皮层网络中强烈的递归抑制作用促使个体神经元对特定且独立的听觉特征作出反应，从而形成高效的稀疏群体编码。

Fig. 4 | Sparse tiling of a shared tuning space within recording sites.

细胞类型与皮层深度的特异性计算

研究进一步发现，不同类型的神经元和皮层深度在编码特性上存在显著差异。例如，具有窄动作电位波形的假定抑制性神经元，其子空间感受野明显大于常规放电的兴奋性神经元。此外，大多数常规放电神经元表现出向下的对称非线性调谐曲线，这与听觉皮层中常见的对比度增益控制机制相吻合；而一些窄波形神经元则表现出向上的非线性响应，这揭示了它们在处理特定声音相位不变性特征时所扮演的独特角色。

Fig. 5 | Subspace similarity within a local A1 population depends on neuronal cell type and cortical depth.

研究意义

该研究建立了一套极具价值的方法论框架，成功将基于深度学习的感觉编码模型转化为可解释的生物学规律，为理解大脑皮层复杂回路如何解析自然感觉世界提供了强有力的理论工具。

Fig. 6 | Diversity of subspace tuning nonlinearities across cell types.

Fig. 7 | Conceptual framework for sparsely tiled SSRFs in local cortical circuits.

Abstract

Convolutional neural networks (CNNs) provide powerful models of neural sensory encoding, but their complexity makes it difficult to discern computations that support their performance. Here, to address this limitation, we developed a linear–nonlinear subspace model that identifies the most informative sensory dimensions captured by a CNN. A CNN was trained on single-neuron data recorded from auditory cortex of ferrets during presentation of a large natural sound set. Each neuron’s linear tuning subspace was computed by applying dimensionality reduction to the gradient of CNN output relative to input. Subspace projections were combined nonlinearly to predict neural activity. The resulting model was functionally equivalent to the CNN. Analysis of trained models showed that responses of local neural populations sparsely tiled a shared stimulus subspace. Encoding properties also differed between cell types and layers, reflecting their position in the cortical circuit. More generally, these results establish a framework for interpreting deep-learning-based encoding models.