如果你曾看过那张著名的“达尔马提亚狗图”,你大概体验过一种奇妙的瞬间。第一眼,你只看到一团混乱的黑白斑点,第二眼,当有人告诉你“这是只狗”,你的视觉系统仿佛被点亮,从此再也无法“看不见那只狗”。
科学家把这种现象称为单次感知学习(one-shot perceptual learning)。 它的神奇之处在于只需要一次清晰图像的呈现,就能永久改变你对退化图像的感知方式。
在实验室里,这种现象常用“Mooney 图”来研究——一种极度退化、几乎无法识别的黑白图像。 但只要你看过一次对应的清晰原图,再回头看 Mooney 图,你会惊讶地发现它突然变得“显而易见”。
这种“顿悟式学习”与我们熟悉的“练习成就完美”完全不同。
传统的视觉学习需要成百上千次重复训练,像肌肉记忆一样慢慢积累; 而 one-shot 学习更像是大脑的“闪存写入”,一次写入,永久生效。
然而,现代 AI 虽然在图像识别上已经强到离谱,却依然难以复现这种能力。 深度学习模型需要海量数据、长时间训练、巨量算力,才能学会识别一个新类别。
相比之下,人类只需要一次体验。
这背后到底发生了什么? 大脑是如何做到一次写入、长期保持、不遗忘旧知识,不破坏已有视觉系统,还能在毫秒级时间内调用这些先验?
更关键的是这种快速学习到底发生在大脑的哪个区域?先验知识以什么格式存储?是概念?是形状?还是某种抽象的视觉模板?神经机制如何避免“灾难性遗忘”,而深度学习模型却做不到?我们能否构建一个真正具备人类式one-shot学习能力的AI?
图1 |心理物理学实验的范式和假设。
这些问题长期以来悬而未决。直到这篇《Neural and computational mechanisms underlying one-shot perceptual learning in humans》发表在Nature Communications的研究出现。
这项研究由纽约大学(NYU)和 Mount Sinai 医学院的跨学科团队联合完成,成员横跨认知神经科学、视觉神经科学、临床神经外科(提供 iEEG 数据)、生物医学工程、计算机工程、数据科学与深度学习。
团队由 Biyu J. He与 Eric Oermann 共同领导,他们在视觉认知、神经电生理和医学 AI 领域都处于国际前沿。
这项研究的意义在于它不仅回答了“人类如何做到 one-shot 学习”这一神经科学难题,还首次构建了一个能模拟人类单次感知学习的深度神经网络模型,并将其与人脑的神经编码进行对齐。
01研究设计:三条证据链锁定大脑中的“先验存储器”
为了破解 one-shot 感知学习的神经与计算机制,研究团队设计了一套极其严谨、跨层级的研究方案。 他们没有依赖单一实验,而是从行为、神经表征、时间动态和计算模型四个维度同时出击,构建了一条“闭环式证据链”。
这套设计可以概括为一句话:从行为推断先验结构,从神经定位存储区域,从时间确定激活顺序,再用模型复现机制。
整个研究包含四条互补证据链。
首先是行为层面。研究者通过操控清晰图像的方向、大小、位置、类别等属性,观察这些操控是否会破坏 one-shot 学习。 如果某种操控不影响学习,就说明大脑中的“先验知识”对该属性具有不变性; 反之,则说明先验依赖该属性。 通过这种方式,他们绘制出一张“先验不变性地图”,从行为层面推断先验可能存储在哪个脑区。
接着是神经层面。研究者使用 7T fMRI 测量不同脑区对这些操控的神经表征差异。 如果某个脑区的神经表征不变性结构与行为不变性结构一致,就说明它可能是先验的存储地。 这一步是行为推断的神经验证。
然后是时间维度。通过对癫痫患者的颅内电记录(iEEG),研究者测量不同脑区在学习后对 Mooney 图的反应变化。 先验存储区应该是最早出现学习效应的区域。 这一步提供了时间因果证据。
最后是计算层面。 研究团队构建了一个具备 one-shot 学习能力的深度神经网络模型,并将模型中学到的“先验”与人脑不同脑区的神经编码进行对齐。 如果模型先验与某个脑区的神经表征最相似,就进一步支持该脑区是人类先验的存储地。
这四条证据链最终指向同一个答案:高层视觉皮层(HLVC)是人类one-shot感知学习的核心存储器。
02心理物理学:先验知识的“不变性地图”揭示其存储位置
如果说 one-shot 感知学习是一种“顿悟”,那么心理物理学实验就是在拆解这场顿悟背后的“视觉魔术”。研究团队从最基础的行为层面入手,试图回答一个看似简单却极其关键的问题——大脑到底存了一个什么样的“先验模板”,让我们在看过一次清晰图像后就能永远识别那张退化图?
为了回答这个问题,他们设计了一套极其巧妙的实验范式。
图2|映射感知先验的不变性属性。
Mooney图:为什么它难得离谱?
Mooney 图是一种极端退化的黑白图像,几乎没有灰度、没有边缘、没有纹理,只有大片黑白块。 对视觉系统来说,这就像把一段旋律只留下节奏、去掉音高——信息少得可怜。
所以第一次看到 Mooney 图时,你的大脑几乎无法从中提取任何结构。 但只要你看过一次对应的清晰原图,再回头看 Mooney 图,你会突然发现:
“啊,这不就是一只狗/一个人/一辆车吗?”
这种“瞬间开窍”的体验,就是单次感知学习的核心。
单次呈现清晰图像如何瞬间改变感知?
研究者让受试者先看 Mooney 图(通常认不出来), 然后只呈现一次对应的清晰图像, 再让他们看同一张Mooney 图。
结果几乎所有人都能立刻认出图像内容,而且这种效果能持续数月。
这说明大脑在一次呈现中就写入了某种“先验知识”。 但这个先验到底是什么? 是形状?是轮廓?是空间布局?还是某种抽象的视觉模板?
为了回答这个问题,研究团队开始“折磨”清晰图像。
操控清晰图像:方向、大小、位置,一项项试过去
研究者的逻辑非常直接,如果改变某个属性后学习效果不变,说明大脑的先验对这个属性“不敏感”。反之,则说明先验依赖这个属性。
这就像在测试一个锁的密码: 你改动某一位数字,锁还能打开,那这一位就不是关键位。
于是他们对清晰图像做了三类操控。
方向变化:翻转、旋转——学习变弱但不会消失
当清晰图像被左右翻转或旋转 90°后,受试者的学习效果明显下降,但并没有完全消失。
这意味着大脑的先验对方向部分不变,但方向仍然是先验的一部分。
这种“部分不变性”非常像高层视觉皮层(HLVC)的编码特征: 它对方向有一定不变性,但不是完全不变。
大小变化:6°、12°、24°——完全不影响学习
这是最关键的发现之一。
无论清晰图像缩小一半还是放大一倍,学习效果都几乎不变。
这直接排除了早期视觉皮层(V1–V4)作为先验存储区的可能性,因为这些区域对大小极其敏感,图像大小变化会彻底改变它们的神经编码。
而高层视觉皮层(尤其 IT 区)对大小高度不变。
这是一条非常强的证据。
位置变化:偏移 6°——学习变弱但不消失
当清晰图像被移到左侧或右侧 6°时,学习效果下降,但依然存在。
这再次呈现出“部分不变性”的特征。
结合方向与大小的结果,一个清晰的模式浮现出来:
大小:完全不变
方向:部分不变
位置:部分不变
这正是高层视觉皮层(HLVC)的典型编码特征。
概念 vs 感知:换成同类不同 exemplar → 学习直接消失
研究者做了一个非常关键的操控,把清晰图像换成同一类别的另一张图。
比如 Mooney 图对应的是一只特定姿态的猫, 但清晰图像换成另一只猫。
结果学习效果直接消失。
这说明大脑存储的先验不是“猫”这个概念,而是“这张猫图的具体视觉结构”。
换句话说,先验存储在感知空间而不是概念空间。
这与 IT 区的神经编码完全一致, IT 区虽然能区分类别,但它的编码本质上仍是具体视觉特征的显式表示。
M通路vs P通路:两条通路都能诱发学习
研究者还测试了低对比度(偏向 M 通路)、红绿等亮度(偏向 P 通路),
结果两者都能诱发学习。
这说明先验不依赖某一条视觉通路,但两条通路都能投射到 IT 区,再次指向 HLVC 作为先验存储区。
至此,行为层面的证据已经非常清晰,先验的“不变性结构”与高层视觉皮层的编码特性高度一致。
03HLVC的神经表征与行为先验完全一致
行为实验告诉我们先验长什么样, 但 fMRI 能告诉我们大脑哪里真的以这种方式编码图像。
研究团队使用 7T 超高场 fMRI,对每张图像在不同操控条件下的神经表征进行建模。
构建神经 RDM:70×70的图像-条件矩阵
他们选取了 10 张图像 × 7 种操控条件, 构建了一个 70×70 的神经表征距离矩阵(RDM)。
每个元素代表:
“图 A 在条件 X 与图 B 在条件 Y 的神经表征差异有多大?”
这是表征相似性分析(RSA)的核心。
图3 |基于模型的RSA结果(n=10名受试者)。
哪些脑区具有“操控不变性”?
研究者把不同脑区的神经 RDM拿来对比,结果非常有意思。
HLVC(LO1、LO2、FC): 对方向、大小、位置操控表现出显著不变性 与行为结果高度一致。
V4:有部分不变性,但不完全匹配。
EVC(V1–V3):完全不匹配(对大小极其敏感)。
FPN、DMN: 虽然任务中活跃,但不具备这种不变性结构。
只有 HLVC 的神经表征与行为推断的“先验结构”一致。
模型 RDM vs 神经RDM:最终对齐
研究者基于行为实验构建了一个“先验模型 RDM”,包含三种距离等级:
大小变化:低距离。
方向/位置变化:中距离。
不同 exemplar:高距离。
然后与各脑区的神经 RDM 进行相关分析。
结果只有一个脑区显著相关:HLVC(尤其LO2和FC)
这意味着HLVC是最可能的先验存储部位。
04颅内电记录(iEEG):HLVC 最早出现学习效应
如果说心理物理学告诉我们“先验长什么样”,fMRI 告诉我们“先验存在哪里”,那么颅内电记录(iEEG)则回答了一个更尖锐的问题:谁是最先被先验点亮的脑区?
这是一个时间维度的问题,而时间,往往是因果的关键。
图4|学习诱导活动变化的时间特性。
为什么时间维度重要?
在大脑中,信息流动是有顺序的。 如果某个区域真的存储了先验,那么当你再次看到 Mooney 图时,它应该是最早被激活的区域—— 就像一个熟悉的旋律响起,你脑海中最先浮现的那段记忆,必然是它的“源头”。
先验存储区必须在视觉输入到达后最先发生变化,而不是等别人告诉它“该怎么想”。
这就是 iEEG 的价值所在。 它不像 fMRI 那样“慢吞吞”,而是毫秒级的神经电信号,能精确捕捉大脑中哪一块皮层最先“觉醒”。
HLVC在~150 ms出现学习效应
研究团队在癫痫患者中记录了颅内电信号,比较学习前后 Mooney 图触发的神经反应。
结果非常干脆:
高层视觉皮层(HLVC)在大约150毫秒时就出现了显著的学习效应。
这意味HLVC 在看到退化图像时,会迅速调用刚刚写入的先验,并在极短时间内改变对图像的解释方式。
这不是“被动响应”,而是“主动调控”。
FPN、DMN的变化更晚出现
相比之下,前额-顶叶网络(FPN)和默认模式网络(DMN)虽然也会在学习后表现出变化,但时间明显滞后。
这说明它们可能参与注意、解释、决策等高阶过程,但不是先验的存储者,更像是“接收来自 HLVC 的更新信息”。
这条时间因果证据与行为和 fMRI 的空间证据完美对齐:
HLVC是先验的源头,而不是被动接收者。
05深度神经网络模型:构建一个能“一眼顿悟”的 AI
科学研究最迷人的地方在于它不仅解释世界,还能启发我们构建新的系统。
当研究团队已经用行为、fMRI、iEEG 三条证据链锁定HLVC 后,他们做了一件更大胆的事——构建一个能像人类一样进行one-shot感知学习的深度神经网络。
这不是“再训练一下模型”那么简单,而是一次对AI 学习机制的重新设计。
图5 |模型显示了感知学习效果并预测了人类的学习结果。
模型架构:Vision Transformer + Top-down Feedback
研究团队以 Vision Transformer(ViT)为基础,但加入了一个关键机制:自顶向下反馈(Top-down Feedback)。
这一步非常关键,因为人脑的视觉系统不是单向的,高层视觉区域会不断向低层区域发送反馈,这种反馈是“先验注入”的核心机制。
传统的深度学习模型几乎都是“自下而上”的,缺乏这种动态调控能力。 而加入反馈后,模型可以在一次呈现清晰图像后,更新内部先验,在下一次看到 Mooney 图时,用先验去“修正”对退化图像的解释。
这就是人工系统中的“顿悟”。
模型结果:AI 真的学会了“一眼顿悟”
令人惊喜的是,这个模型不仅能进行 one-shot 学习,而且表现得非常“人类”。
研究团队发现模型成功复现了人类的整体学习幅度。
也就是说看一次清晰图像,模型对 Mooney 图的识别率显著提升,幅度与人类非常接近。
更令人震惊的是模型能预测不同图像的学习难度差异(image-specific)。
或者说哪些 Mooney 图更容易被人类“顿悟”,哪些更难,模型都能提前预测。
这说明模型不仅学到了“先验”,还学到了“先验的结构”。
模型学到的“先验”与 HLVC 神经编码最相似
研究团队进一步把模型内部的“先验表征”与人脑不同区域的神经编码进行对齐。
结果再次指向同一个答案,模型的先验与HLVC的神经编码最相似。
这意味着模型学到的不是“概念标签”,而是类似 HLVC 的“结构化感知模板”,这种模板具有与人类相同的不变性结构。
这不仅验证了模型的合理性,也验证了人脑的机制。
计算模型与人脑在先验格式上高度一致
四条证据链——行为、fMRI、iEEG、模型——最终收敛到一个令人信服的结论:
人类的one-shot感知学习依赖HLVC的快速可塑性与自顶向下反馈机制。而一个具备类似结构的深度模型,也能实现“一眼顿悟”。
这不仅是神经科学的突破,也是 AI 的启示。
未来的快速学习模型,可能不再依赖海量数据和反复训练,而是依赖高层表征的快速写入,自顶向下的动态调控,感知空间的结构化先验。
AI要想更像人类,就必须学会“用先验看世界”。
06人类 one-shot 感知学习的神经与计算机制
当我们把心理物理学的不变性地图、7T fMRI 的空间表征、iEEG 的时间因果证据,以及深度神经网络的计算模拟放在一起时,一个极其清晰、几乎无可辩驳的图景浮现出来,人类的单次感知学习并不是魔法,而是一套高度结构化、层级分明、效率惊人的神经计算机制。
这套机制的核心,就是高层视觉皮层(HLVC)。
先验存储在 HLVC,而非海马体或前额叶
长期以来,很多人以为“快速学习 = 海马体”,因为 episodic memory(情景记忆)确实依赖海马体,并且也是“看一次就记住”。 但这项研究用行为学和神经证据明确告诉我们:one-shot感知学习≠ episodic memory。
海马体负责的是“你见过这张图吗?” HLVC 负责的是“你能看懂这张图吗?”
这两者是完全不同的任务。
前额叶和顶叶网络虽然在任务中活跃,但它们更像是“调度中心”,而不是“存储仓库”。 真正写入先验、真正发生可塑性的地方,是 HLVC。
这意味着人类的快速感知学习是皮层内学习,是视觉系统自身的快速重构,是一种“直接写入视觉模型”的机制,而不是“写入记忆库再调用”。
这与现代 AI 的训练方式形成鲜明对比。
先验格式:部分不变、感知空间、结构化特征编码
研究的心理物理学部分揭示了先验的“格式”:
对大小完全不变。
对方向、位置部分不变。
对 exemplar 完全敏感。
存储在感知空间,而非概念空间。
这说明先验不是抽象的“类别标签”,不是“这是猫”,而是“这张猫图的结构化视觉模板”。
它包含边缘、形状、空间布局、局部特征的组合方式。
这些都是 HLVC(尤其 IT 区)最擅长编码的内容。
先验是一种可直接作用于视觉处理的结构化模板,而不是语言或概念层面的知识。
这也解释了为什么一次呈现就能改变感知,你不是“学会了一个概念”,而是“更新了视觉模型本身”。
图6 |大脑预测对比揭示了FC在学习中的强烈参与。
机制模型:HLVC → 自顶向下反馈 → 早期视觉皮层
把所有证据整合起来,我们得到一个极其优雅的机制模型,HLVC存储先验→再次看到Mooney图时先验被激活→通过反馈调节早期视觉皮层→让退化图像变得可识别。
这是一种“从上往下”的视觉重建过程。
第一次看到 Mooney 图时,早期视觉皮层只能看到混乱的黑白块; 但当 HLVC 拥有了先验,它会在毫秒级时间内把“正确的解释”反馈给低层视觉区域,让它们重新组织输入。
这就是为什么Mooney 图第一次看不懂,第二次就“突然显而易见”,而且这种效果能持续数月。
因为你不是记住了图像,而是更新了视觉系统的内部结构。
07从人脑到 AI 的未来启示
快速学习不是“微调参数”,而是“写入先验”
这项研究对 AI 的启示非常深刻。
现代深度学习模型的学习方式是大量样本、大量梯度下降、大量参数更新、训练一次,推理一次。
但人类的 one-shot 学习不是这样。
人类的快速学习依赖高层表征的快速写入,自顶向下的动态调控感知,空间的结构化先验。
这意味着未来的 AI 想要具备真正的人类式 one-shot 学习能力,必须从“训练范式”转向“结构范式”。
不是简单的参数微调,而是构建一个能快速写入高层表征、并通过反馈机制影响低层处理的系统。
AI 不应该只会“学会分类”, 而应该学会“更新自己的视觉模型”。这才是人类式学习的本质。
人类的“顿悟式学习”看似神秘,但这项研究告诉我们,它背后是一套极其高效的神经计算机制:
HLVC的快速可塑性。
感知空间的结构化先验。
自顶向下的反馈调控。
低层视觉区域的动态重构。
这不是魔法,而是进化出的高效视觉算法。
更重要的是,这项研究不仅解释了人类的机制,还为 AI 指出了未来的方向。
如果未来的 AI 想要摆脱“数据饥渴”和“训练依赖”,真正做到“看一次就会”,它需要能快速写入的高层表征、能实时调控的反馈机制,能在感知空间中构建结构化先验。
这将是从“深度学习”迈向“深度理解”的关键一步。
而这项研究正是这条道路上的重要里程碑。(END)
参考资料:https://www.nature.com/articles/s41467-026-68711-x
关于波动智能——
波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系,融合人工智能与意识科学,构建覆盖情绪识别、建模与推荐的智能引擎,自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法,形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”,其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构,赋能企业实现更高效的用户洞察与精准情绪交互,推动从功能驱动到意图驱动的产业范式升级。
亲爱的人工智能研究者,为了确保您不会错过*波动智能*的最新推送,请星标*波动智能*。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!
加入AI交流群请扫码加微信
热门跟贴