NC最新 | 大脑如何对无关信息进行“无监督学习”？高阶统计特征逃避注意力抑制的神经机制|视觉

认知神经科学前沿文献分享

基本信息

Title:Unsupervised visual learning is revealed for task-irrelevant natural scenes due to reduced attentional suppression effects in visual areas

发表时间:2026-05-18

发表期刊:Nature Communications

影响因子:15.7

获取原文:

1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

人类自出生起就沉浸在连续不断的复杂视觉刺激中。我们的大脑似乎有一种天赋，能够在没有明确指导或奖励的情况下，自动对环境中频繁出现的特征（如物体轮廓或运动模式）变得敏感。这种被称为“无监督学习”的机制，被广泛认为是语言习得和统计学习等高级认知功能的基础。

然而，在视觉知觉学习（Visual Perceptual Learning, VPL）领域，无监督学习是否起作用一直存在巨大争议。以往的大量研究表明，如果一个视觉特征是可见的，但与你当前正在执行的任务无关，大脑的注意力系统就会将其“抑制”掉，导致你根本无法学习到这个特征。因此，许多学者认为视觉知觉学习必须依赖自上而下的注意力或反馈。

但这里有一个关键的断点：过去得出“无法学习”结论的研究，几乎全部使用了简单的人工刺激（如光栅或随机噪点）。真实世界中的自然场景远比人工刺激复杂，包含了丰富的全局结构。大脑在处理作为背景的“自然场景”和“人工刺激”时，真的会一视同仁地将它们全部抑制掉吗？这项发表在《Nature Communications》上的研究，正是试图回答这个被长期忽视的问题。

研究核心总结

研究团队通过一系列精心设计的行为学和fMRI实验，不仅打破了“可见无关特征无法被学习”的传统认知，还揪出了导致自然场景与人工刺激学习差异的幕后机制。

一、自然场景能突破注意力抑制，人工刺激则不能

研究者首先让受试者在屏幕中央执行一个极度消耗注意力的快速串行视觉呈现（RSVP）任务。与此同时，屏幕背景中会呈现与任务完全无关的图像。结果发现，当背景是自然场景图像时，受试者在经过多天的暴露后，对该场景的主导朝向和空间频率的辨别能力显著提升了。然而，当背景被替换为具有相同基础物理属性（如相同的朝向和空间频率频谱）但缺乏全局结构的人工打乱图像时，受试者没有表现出任何学习效果。

有趣的是，如果取消中央的干扰任务，让受试者自由观看这些图像，无论是自然场景还是人工刺激，都能引发显著的视觉学习。这说明，人工刺激并非不能被无监督学习，而是在有任务干扰时，它被注意力系统无情地抑制了，而自然场景却成功“逃脱”了这种抑制。

Fig 1. 实验1揭示了在执行无关的高负荷任务时，只有自然场景图像（而非人工打乱图像）能引发对背景主导朝向的无监督视觉学习。

Fig 2. 实验2进一步证实，这种自然场景特有的无监督学习效应同样适用于空间频率这一基础视觉特征。

二、逃避抑制的关键在于“高阶统计特征”

自然场景到底有什么魔力？研究者将自然场景的视觉信息进行了拆解。他们发现，仅仅匹配图像的亮度分布（偏度和峰度等边缘统计特征）并不能引发学习。真正起作用的，是自然场景中的“高阶统计特征”（Higher-order statistics）。

高阶统计特征代表了自然场景中典型的复杂空间关系，如边缘、纹理和轮廓的组合。当研究者利用算法生成只保留高阶统计特征、甚至去除了局部朝向信息的合成图像时，受试者依然能够在注意力被占用的情况下，学习到图像的全局主导朝向。这直接证明了，高阶统计特征是引发无任务相关视觉学习的充分且必要条件。

Fig 5. 包含自然场景高阶统计特征的Portilla-Simoncelli合成图像，同样能够在注意力受限的情况下引发显著的视觉学习。

Fig 6. 即使是去除了原始局部朝向信息、仅保留高阶统计特征的图像，依然足以支撑大脑提取并学习其主导朝向。

三、高阶视觉皮层对高阶特征的抑制效应减弱

为了探究这一现象的神经基础，研究者利用fMRI测量了大脑在处理不同图像时的血氧水平依赖（BOLD）信号。他们对比了受试者在执行简单任务和困难任务时，视觉皮层对背景图像的响应差异。

结果显示，大脑的注意力控制源头（如顶内沟IPS和额叶眼动区FEF）对所有类型的背景图像发出了同等强度的抑制信号。然而，在接收端，初级视觉皮层（V1）对所有图像都表现出强烈的抑制；但到了更高阶的视觉区域（如V2、V3、V4v），对高阶统计特征图像的抑制效应显著减弱了。这意味着，逃避注意力抑制并非因为顶叶/额叶“网开一面”，而是高阶视觉皮层在处理复杂结构时具有某种天然的抗抑制特性。

Fig 3. | Unsupervised VPL of orientation as a result of self-paced passive viewingof natural scene and artiﬁcial images (Experiment 3). a Experimen...

Fig 8. fMRI数据表明，与低阶特征相比，高阶统计特征在V2、V3、V4v等高阶视觉区域受到的注意力抑制显著更小。

四、时间差机制：慢半拍反而成为优势

为什么高阶统计特征在高阶视觉区能逃避抑制？研究者通过行为学极限测试提出了一个极具启发性的机制解释：时间错位。

他们测量了大脑处理不同特征所需的时间，发现大脑检测高阶统计特征中的主导朝向，比检测低阶特征要慢大约300毫秒。众所周知，自上而下的注意力抑制是一个快速且短暂的过程（通常在刺激出现后150毫秒内最强）。因此，当高阶统计特征的信息慢吞吞地到达高阶视觉皮层并形成表征时，注意力抑制的“最佳时间窗口”已经关闭了。正是这种处理速度上的“慢半拍”，让高阶特征巧妙地漏出了注意力的屏蔽网，进而促成了无监督学习。

Fig 4. | Kurtosis and skewness of natural scene images does not play a sig-niﬁcant role in unsupervised VPL (Experiment 4). a Illustrations of the...

Fig 7. | Higher-order statistics of natural scene images are less suppressed byattention compared to artiﬁcial images (Experiment 10). a Illustrati...

Fig 9. 行为学时间测量与机制模型示意：高阶特征较长的处理时间（多出约300毫秒）使其刚好错过了大脑执行注意力抑制的最佳时间窗口。

研究意义

这项研究为长期以来的视觉知觉学习争论提供了一个极具解释力的统一框架。它告诉我们，无监督学习确实是视觉知觉学习的底层机制，但它能否表现出来，取决于刺激本身的统计结构与大脑注意力门控机制之间的博弈。

从理论意义上看，该研究修正了“可见无关特征绝对无法被学习”的旧观点，指出自然场景的复杂结构赋予了视觉信息特权。从应用启发来看，这为人工智能和机器学习领域敲响了警钟：当前许多AI模型并未区分自然场景和人工刺激的输入差异，而人脑的无监督学习显然高度依赖于输入信息的统计层级。未来在设计更类脑的无监督学习算法时，引入对高阶统计特征的敏感性以及时间动态窗口的概念，或许能大幅提升模型在真实世界复杂环境中的泛化与适应能力。当然，关于“时间差”逃避机制目前仍主要基于行为学推算，未来还需要高时间分辨率的神经电生理证据来进一步夯实这一迷人的假说。

分享人：饭鸽儿

审核：PsyBrain 脑心前沿编辑部

你好，这里是「PsyBrain 脑心前沿」

专注追踪全球认知神经科学的最尖端突破

视野直击 Nature, Science, Cell 正刊及核心子刊与顶级大刊

每日速递「深度解读」与「前沿快讯」

科研是一场探索未知的长跑，但你无需独行。欢迎加入PsyBrain 学术社群，和一群懂你的同行，共同丈量脑与心智的无垠前沿。

点击卡片进群，欢迎你的到来

一键关注，点亮星标 ⭐ 前沿不走丢！