PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier
一键关注,点亮星标 ⭐️
不错过每日前沿资讯
认知神经科学前沿文献分享
基本信息
Title:Combined evidence from artificial neural networks and human brain-lesion models reveals that language modulates vision in human perception
发表时间:2025.12.15
发表期刊:Nature Human Behaviour
影响因子:16.0
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
研究背景
“我们看到的蓝色,是一样的蓝色吗?”
这不仅仅是一个哲学思辨,更是认知科学中一个经典的“鸡生蛋,蛋生鸡”问题:语言是否重塑了我们对世界的感知?
长久以来,传统的视觉神经科学观点倾向于认为,视觉处理是一个主要由外界输入驱动的“自下而上”的过程。我们的初级视觉皮层提取线条、颜色,然后传递到高级视觉皮层(如腹侧枕颞皮层,VOTC)进行物体识别,最后才被打上语言的标签。在这种视角下,语言似乎只是视觉感知的“后期注脚”。
然而,随着深度学习的爆发,尤其是像对比语言-图像预训练(Contrastive Language-Image Pretraining,CLIP)这样结合了海量文本与图像训练的多模态大模型的出现,事情变得有趣起来。研究发现,这些“读过书”的视觉模型,其内部表征竟然比纯粹看图训练的模型(如ResNet或MoCo)更像人类的大脑。这是否暗示着,人类的视觉皮层在漫长的发育和学习中,其实早已被语言“渗透”了?
遗憾的是,AI模型毕竟是“黑盒”,无论它们与大脑多相似,都只能提供相关性证据,无法证明因果性。我们无法确定,是因为模型学到了类似语言的高阶语义关系,还是因为模型单纯用了更多的数据?为了解开这个谜题,我们需要更直接的证据,即来自人脑“损伤模型”的因果证据。
本研究巧妙地结合了最新的人工神经网络(ANNs)与珍贵的人脑损伤数据(Lesion data),试图回答一个核心问题:切断语言与视觉的神经通路,会让我们的视觉大脑“退化”回纯视觉的状态吗?
Fig. 1 | Overview of the fMRI datasets, vision models and study 1 analysis schema.
研究核心总结
本研究通过跨学科的创新视角,揭示了语言系统对人类腹侧枕颞皮层(VOTC)物体表征的动态调节作用。
Fig. 2 | Intercorrelations among vision model RDMs and their alignment with human behaviour.
多模态大模型更精准地预测了VOTC的神经活动
研究团队首先在四个涵盖不同任务、不同人群(包括听障人士)的fMRI数据集上,对比了三种不同训练机制的深度神经网络模型对VOTC神经活动的解释力 :
CLIP(句子级语言监督):学习图像与自然语言描述的对应关系。
ResNet(词汇级标签监督):学习图像与离散类别标签(Label)的对应。
MoCo(无监督/自监督):仅从图像自身的统计规律中学习,不涉及语言。
表征相似性分析(RSA)结果显示,CLIP模型在解释VOTC神经表征方差方面,始终优于ResNet和MoCo。这表明,包含丰富语义关系(Semantic Relations)的句子级语言信息,使机器视觉模型更接近人类的视觉皮层运作方式。此外,这种“CLIP优势效应”在群体水平上表现出明显的左侧偏侧化(Left-lateralized)趋势,这与人类语言网络的偏侧化特征高度一致。
Fig. 3 | Language effect in VOTC across datasets.
左侧角回是语言调节视觉的关键枢纽
为了确立因果关系,研究考察了33位脑卒中患者。研究者量化了患者脑中连接VOTC与语言网络各节点的白质纤维束(White Matter Tracts)的完整性。
Fig. 4 | Study 2 analysis workflow linking WM integrity and model–brain correspondence in patients with chronic stroke.
核心发现令人震惊:左侧VOTC与左侧角回(Left Angular Gyrus, AG)之间白质通路的完整性,直接决定了视觉皮层的表征模式。
当这条通路完整时,VOTC的表征更接近CLIP模型(受语言深度影响)。
当这条通路受损时,CLIP模型的解释力显著下降,而MoCo模型(纯视觉自监督)的解释力反而显著上升 。
这一“此消彼长”的现象揭示了极其深刻的机制:人类的视觉皮层并不总是处在单一的固化状态,而是处于“纯视觉输入”与“语言调节”的动态平衡中。左侧角回作为跨模态语义整合的枢纽,通过白质纤维束将语言中的关系结构“注入”视觉皮层。一旦这种注入被阻断,视觉皮层就会发生可塑性变化,退回到一种更依赖低级视觉统计特征(类似MoCo)的处理模式。
Fig. 5 | WM integrity of left VOTC–left AG tract predicts model–brain correspondence of CLIP and MoCo (n = 33 patients).
总而言之,该研究为“语言调节视觉”的理论争议提供了强有力的神经解剖学因果证据。它证明了语言对视觉的影响不是一种单纯的自上而下的注意机制,而是深刻改变了视觉皮层对物体表征的几何结构(Representational Geometry)。同时,这也验证了利用脑损伤数据来评估和优化AI模型的“生物合理性”是一个极具潜力的研究范式,并再次证明了AI for Science的光明前景。
Fig. 6 | Validation analyses using vision models trained on the identical dataset.
Abstract
Comparing information structures in between deep neural networks (DNNs) and the human brain has become a key method for exploring their similarities and differences. Recent research has shown better alignment of vision–language DNN models, such as contrastive language–image pretraining (CLIP), with the activity of the human ventral occipitotemporal cortex (VOTC) than earlier vision models, supporting the idea that language modulates human visual perception. However, interpreting the results from such comparisons is inherently limited owing to the ‘black box’ nature of DNNs. Here we combine model–brain fitness analyses with human brain lesion data to examine how disrupting the communication pathway between the visual and language systems causally affects the ability of vision–language DNNs to explain the activity of the VOTC to address this. Across four diverse datasets, CLIP consistently captured unique variance in VOTC neural representations, relative to both label-supervised (ResNet) and unsupervised (MoCo) models. This advantage tended to be left-lateralized at the group level, aligning with the human language network. Analyses of 33 patients who experienced a stroke revealed that reduced white matter integrity between the VOTC and the language region in the left angular gyrus was correlated with decreased CLIP–brain correspondence and increased MoCo–brain correspondence, indicating a dynamic influence of language processing on the activity of the VOTC. These findings support the integration of language modulation in neurocognitive models of human vision, reinforcing concepts from vision–language DNN models. The sensitivity of model–brain similarity to specific brain lesions demonstrates that leveraging the manipulation of the human brain is a promising framework for evaluating and developing brain-like computer models.
请打分
这篇刚刚登上Nature Human Behaviour的研究,是否实至名归?我们邀请您作为“云审稿人”,一同品鉴。精读全文后,欢迎在匿名投票中打分,并在评论区分享您的深度见解。
前沿交流|欢迎加入认知神经科学前沿交流群!
解读仅供参考,具体详见原文及其数据
分享人:饭哥
审核:PsyBrain 脑心前沿编辑部
热门跟贴