在嘈杂的鸡尾酒会上,我们总能从交织的人声中精准捕捉到好友的低语。这种大脑与生俱来的选择性听力,被科学界称为“鸡尾酒会效应”,是人类听觉系统最神奇的能力之一。
然而,对于机器而言,从混杂声音中分离并识别单一声源非常困难,这就是“鸡尾酒会问题”。比如传统的助听器只会无差别放大所有声音,杂音与对话同步放大,导致用户在复杂环境下依然听不清、听得累。
近日,来自哥伦比亚大学、加州大学旧金山分校等机构的联合团队,成功研发了一套实时闭环脑控听力系统,直接通过解码大脑注意力信号,实时放大目标人声、压制杂音,让人在嘈杂环境中想听谁就听清谁,彻底打破传统助听器的技术瓶颈。研究成果发表于 Nature Neuroscience 期刊。
通讯作者尼玛·梅斯加拉尼(Nima Mesgarani)长期致力于解析人类大脑处理复杂声音环境的神经机制,其研究的核心贡献在于揭示了大脑如何在“鸡尾酒会”场景下有选择性地重构目标谈话者的声谱特征。
他此前的研究不仅证实了听觉皮层会为关注的声音产生独特的“标签”,还开发了一系列先进的语音分离算法和刺激重建模型,奠定了从微弱神经活动中还原清晰语音波形的理论基石。
听力障碍是全球最常见的感官缺陷之一,世界卫生组织数据显示,全球超 4.3 亿人存在不同程度的听力损失。
传统助听器的核心逻辑很简单:麦克风收集所有声音并统一放大,然后再传入耳朵。这种放大模式忽略了人类听觉的核心需求,选择性关注。大脑天生会筛选声音:你关注的人说话,大脑会强化其神经信号;无关杂音,大脑会自动抑制。但传统助听器把目标对话、旁人闲聊、餐具碰撞、环境噪音全部放大,原本微弱的目标声音被杂音淹没,用户只能费力分辨,久而久之产生听觉疲劳、焦虑,甚至放弃佩戴。
多年来,科学家一直尝试破解这一难题:能否让助听器像大脑一样,只放大用户想听的声音,自动过滤杂音?
早在 20 世纪 50 年代,科学家就发现 “鸡尾酒会效应” 背后的神经机制:人类听觉皮层会对关注的声音产生独特的神经信号,就像给目标声音打上专属标签。基于这一发现,“听觉注意力解码(AAD)” 技术应运而生:通过分析人脑的电生理信号(如脑电图 EEG)来识别用户当前正关注哪个说话者或声音源。
在运作流程上,系统首先通过高分辨率电极,从患者大脑皮层实时采集低频与高频信号,这两者共同构成了捕捉注意力特征的高清数据源;随后,利用线性回归模型,根据这些大脑信号还原出患者正在关注的那段声音的波形。
判定阶段,系统会将这段由大脑信号复刻出的波形,与环境中捕获的多个竞争音源进行相关性比对,相关性数值最高的音源即被判定为当前的注意力焦点;最终,系统自动将目标音源的音量提升最高 9 分贝,同时压低另一方。为了让音量过渡自然,团队还引入了马尔可夫模型进行平滑处理,避免音量突变带来的不适感 。
为了验证这套系统是否好用,研究人员招募了 4 名癫痫患者进行了三项测试。这类患者因治疗需要,颅内已植入高精度电极,直接贴合大脑听觉皮层,能采集到最清晰、最精准的神经信号。所有患者自述听力正常,确保实验不受原有听力障碍干扰。
第一项测试,模拟嘈杂环境下的基础聆听场景。患者同时听两段对话,系统在中途开启。结果显示,系统开启后,患者对目标语音的理解准确率显著提升,信噪比平均改善了 12 分贝。高达 75% 到 95% 的试次中,患者明确表示更喜欢系统开启后的听觉体验。
更重要的是,生理指标也给出了证据,患者的瞳孔扩张程度显著降低。在神经科学中,瞳孔变小意味着大脑不需要费那么大劲去处理信息,这证明系统确实让听力变得更省劲。
第二项测试,验证注意力切换灵敏度。现实中,我们会随时切换谈话对象。实验中,当患者收到指令把注意力从左侧发言者转到右侧时,系统表现出了极高的灵敏度。系统能在平均 5.1 秒内识别出这种转变,并自动切换放大对象。
第三项测试,模拟最真实的自主聆听场景。不给任何外部指令,让患者随心所欲切换关注对象。即便如此,系统依然能稳定捕捉这种自发的注意力转移,精准放大目标声音,完美适配真实多变的生活场景。
有人会好奇:为什么不直接给助听器装摄像头,靠眼神追踪判断关注对象?研究团队明确指出,脑控听力比眼神追踪靠谱太多。
一方面,当两个说话人距离很近,或是听广播、公开演讲时,眼神根本没法区分目标;另一方面,人常出现“眼神看 A、耳朵听 B”的情况,比如开会时盯着同事,其实在听邻座聊天,眼神根本不能真实反映听觉注意力;更重要的是,靠眼神、转头判断,长时间下来会非常疲劳,而脑波解码是全自动、无感的,全程不用任何额外动作。
此外,研究团队还进行了一项极具人文关怀的额外测试:他们邀请了 40 名真实的听障患者,让他们听这套系统处理后的音频。结果显示,相比于听力正常者,听障人群从这套系统中获得的理解力提升更为巨大。这证明了该技术不仅在实验室里有效,在临床应用上也具备巨大的应用潜力。
1.Choudhari, V., Nentwich, M., Johnson, S. et al. Real-time brain-controlled selective hearing enhances speech perception in multi-talker environments. Nat Neurosci (2026). https://doi.org/10.1038/s41593-026-02281-5
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴