当我们在网上开会或者在大礼堂听讲座的时候,经常会遇到回声的问题。回声会使声音变得模糊不清,影响我们的理解。但是,人类的大脑却能够在回声中分辨出原始的语音,这是为什么呢?

浙江大学的科学家们发现了答案。他们在《PLOS 生物学》杂志上发表了一项研究,显示人类的听觉系统能够将声音分成两个流——直接语音和回声,并且能够恢复被回声削弱或消除的语音信号的低频成分,从而提高语音的清晰度。

这项研究的主要作者,浙江大学神经科学研究所的张敏教授说:“这是一个非常重要的发现,因为它揭示了人类如何在复杂的声学环境中保持语音的可理解性的神经机制。”

为了验证这一发现,科学家们招募了约 50 名年龄在 19 到 33 岁之间的汉语母语者,让他们听一段带有和不带有回声的小说朗读,并用一种叫做磁脑图(MEG)的无创技术记录他们的大脑活动。磁脑图能够测量大脑中的电流产生的磁场,从而绘制出大脑的活动图。

科学家们发现,参与者无论是否听到回声,都能够以超过 95% 的准确率理解小说的内容。他们还发现,参与者的大脑活动与第二种计算模型更为一致,即将声音分成两个流的模型,而不是让大脑适应回声的模型。

张敏教授说,这一发现不仅对于人类的听觉认知有重要的意义,也对于改善人工智能(AI)的语音识别有巨大的潜力。

目前的 AI 语音识别系统在处理带有回声的录音时,往往会出现错误或失真,影响其准确性和可靠性。

如果能够借鉴人类的听觉机制,让 AI 能够分辨出直接语音和回声,并且恢复语音信号的完整性,那么 AI 的语音识别能力就会大大提高。

“我们希望我们的研究能够为 AI 语音识别的发展提供一些启示和灵感,让 AI 能够更好地理解人类的语言,从而为人类的生活和工作带来更多的便利和效率。”