一键关注,点亮星标 ⭐️ 前沿不走丢!
认知神经科学前沿文献分享
基本信息
Title:Humans can use positive and negative spectrotemporal correlations to detect rising and falling pitch
发表时间:2026.2.9
发表期刊:Nature Human Behaviour
影响因子:15.9
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
研究背景
当你听到朋友用上扬的语调问“真的吗?”,或者在听别人说标准的中文词汇时,你的大脑是如何精确判断出声音的音调是在“升高”还是“降低”的 ?一直以来,在语音交流(如英语的语调、中文的声调)和音乐欣赏中,追踪音调的相对变化(即频谱运动)是人类听觉系统的核心功能。
传统观点认为,我们的听觉系统就像一个极其专注的追踪器,通过连续锁定声音的基频(F0)或核心频率成分来感知音调的升降。但这并不能解释全部现象,因为在缺乏基频的复杂噪声环境中,人类依然能够感知音调的相对变化。
有趣的是,视觉神经科学家早就发现,人类感知物体的空间运动并不仅仅依赖于“追踪物体”,很大程度上还依赖于计算局部视野内的“时空强度相关性”(spatiotemporal correlations)。这种计算机制甚至会导致著名的视觉错觉:“Reverse-phi错觉”(当视觉刺激的反差在运动中反转时,人类会产生运动方向相反的错觉)。这引出了一个极具启发性的跨学科谜题:人类的耳朵,是否也在使用与眼睛高度相似的“相关性运动检测算法”来听懂音调的变化?
研究核心总结
近期发表于《Nature Human Behaviour》的一项研究,巧妙结合了心理物理学、计算建模、功能性磁共振成像(fMRI)以及自然语音语料库分析,确凿地证明了人类可以利用正向和负向的“时频相关性”(spectrotemporal correlations)来检测音调的升降。
Fig. 1 | Humans detect auditory motion in pairwise frequency–time correlations.
一、核心发现与全新听觉错觉
研究团队借鉴了视觉研究中的范式,开发了一种不含基频信息的全新“相关噪声”听觉刺激。结果显示,在完全没有基频可以追踪的情况下,受试者仅凭声音在时间和频率上局部的强度相关性,就能准确判断音调是上升还是下降。更令人震撼的是,当研究人员施加“负向时频相关性”(相当于视觉中反转对比度的刺激)时,受试者一致产生了相反的听觉感知。原本频率在上升的负相关声音听起来像在下降,而下降的声音听起来像在上升。这构成了一个全新的听觉错觉,完美复刻了视觉中的Reverse-phi错觉。
Fig. 2 | Correlation detection is tuned to small frequency changes and short delays in time.
二、大脑听觉皮层的方向对抗机制
为了揭示背后的神经机制,研究人员进行了fMRI脑成像实验 。在视觉系统中,运动方向的计算依赖于“对抗相减”(opponent subtraction)机制,即对某个方向敏感的神经元信号会减去对相反方向敏感的神经元信号。fMRI数据表明,人类双侧听觉皮层(包含颞上回及Heschl回等区域)在分别听到单纯上升或下降的音调时表现出强烈的激活;但当上升和下降的音调被叠加同时播放时,该区域的神经活动受到了显著抑制。这为人类听觉系统中存在“音调方向对抗机制”提供了有力的功能影像学支持。
Fig. 3 | Sensitivity to all four pairwise intensity combinations contributes to rising and falling pitch perception.
三、自然语言中的生态学意义
大脑为什么要演化出对“负向相关性”极度敏感的机制呢?通过对超过90分钟的英语语音和40分钟的中文普通话语音库进行“光流法”分析,研究发现,无论正向还是负向的时频相关性,都在自然人类语言的音调调制中携带着丰富且可靠的信息。数据表明,语音中提取的负向刺激相关性与真实的音调变化呈现强烈的负相关(反相关),这从数学和生态学角度完美解释了为什么人类在实验室听到负向相关声音时会产生方向相反的错觉感知。
Fig. 4 | Bilateral regions of human auditory cortex show signatures of opponency.
研究意义
该研究首次揭示了中枢神经系统在处理完全不同维度的感觉信息时(视觉的空间维度与听觉的频率维度),部署了高度相似的局部相关性计算规则。这不仅重塑了我们对听觉感知算法的底层认知,更为探索人类如何精妙地解析自然语音与复杂音乐指明了新的方向。
Fig. 5 | Rising and falling tone in spoken language can be detected through both positive and negative pairwise correlations.
Abstract
To discern speech or appreciate music, the human auditory system detects how pitch changes over time (pitch motion). Here, using psychophysics, computational modelling, functional neuroimaging and analysis of recorded speech, we ask whether humans can detect pitch motion using computations analogous to those used by the visual system. We adapted stimuli from studies of vision to create novel auditory correlated noise stimuli that elicited robust pitch motion percepts. In psychophysical experiments, we discovered that humans can judge pitch direction from spectrotemporal intensity correlations. Robust sensitivity to negative spectrotemporal correlations is a direct analogue of illusory ‘reverse-phi’ motion in vision, constituting a new auditory illusion. Functional MRI measurements in auditory cortex supported the hypothesis that human auditory processing may employ pitch direction opponency. Linking lab findings to real-world perception, we analysed recordings of English and Mandarin speech and found that pitch direction was signalled by both positive and negative spectrotemporal correlations, suggesting that sensitivity to both types confers ecological benefits. This work reveals how motion detection algorithms sensitive to local correlations are deployed by the central nervous system across disparate modalities (vision and audition) and dimensions (space and frequency).
请打分
这篇刚刚登上Nature Human Behaviour的研究,是否实至名归?我们邀请您作为“云审稿人”,一同品鉴。精读全文后,欢迎在匿名投票中打分,并在评论区分享您的深度见解。
分享人:饭鸽儿
审核:PsyBrain 脑心前沿编辑部
你好,这里是「PsyBrain 脑心前沿」
专注追踪全球认知神经科学的最尖端突破
视野直击 Nature, Science, Cell 正刊 及 Nat Neurosci, Nat Hum Behav, Neuron, Sci Adv 等核心子刊与顶级大刊
每日速递「深度解读」与「前沿快讯」,为你打破信息差
科研是一场探索未知的长跑,但你无需独行。欢迎志同道合的你加入PsyBrain 学术社群,和一群懂你的同行,共同丈量脑与心智的无垠前沿。
点击卡片进群,欢迎你的到来
一键分享,让更多人了解前沿
热门跟贴