在嘈杂的酒吧里,即便是最好的降噪耳机也会束手无策。它们要么完全隔绝外界声音,要么让所有声音涌入,但无法像人类那样自然地专注于重要的声音同时忽略其他噪音。华盛顿大学研究人员的一项新研究提出了第三种解决方案——一种"主动式听力助手",它能利用人工智能技术自动识别你的对话对象,并实时增强他们的声音,无需任何手势或触控操作。
华盛顿大学移动智能实验室负责人、该研究的共同作者Shyam Gollakota说:"我们提出了一个非常简单的问题,如果你在有一百个人的酒吧里,人工智能如何知道你在和谁交谈?"
研究团队的解决方案融合了音频工程和对话科学。基于Gollakota实验室之前的研究,该系统使用经过训练的人工智能来检测人类本能遵循的细微轮流发言模式,这种模式能让对话者以最小重叠交替发言。这种对话节奏成为识别对话参与者的关键线索。不遵循这种模式的声音将被过滤掉。
该原型设备在双耳使用麦克风,并配备一个指向佩戴者嘴部的定向音频滤波器来提取用户自己的语音,这作为检测轮流发言的锚点。有了这个锚点,系统能够隔离和增强对话伙伴的声音,同时抑制其他人的声音,运行延迟低于10毫秒——足够快以保持放大音频与唇部动作同步。
Gollakota表示:"核心洞察很直观。如果我在和你对话,我们不会像不参与对话的人那样频繁地互相打断。"该智能体识别与佩戴者自然轮流发言的声音,而忽略那些过于频繁重叠、不符合对话模式的声音。该方法不依赖于距离、音量、方向或音调。"除了音频,我们不使用任何其他传感器,"他说。"你可以看向别处,或者距离更远的人说话更大声——它仍然有效。"
这项技术对有听力障碍的人特别有用,因为传统助听器会同时放大所有声音和噪音。Gollakota说:"这对生活质量的提升可能极其重要。"配备这项技术的主动式听力助手还能帮助那些难以手动选择要放大的说话者的老年用户。
为了解决延迟问题,系统采用了模仿大脑处理对话方式的双重模型。对话音频要感觉自然,必须在10毫秒内处理完成,但检测轮流发言模式需要一到两秒的上下文。协调这些时间尺度需要分离式架构:一个每秒更新一次的慢速模型和一个每10到12毫秒运行一次的快速模型。
慢速模型推断对话动态并生成"对话嵌入"。快速模型使用该嵌入仅提取已识别的伙伴声音,以足够快的速度抑制所有其他声音,确保对话无缝进行。Gollakota将这个过程比作大脑如何将较慢的思考与快速的语音产生分离。"有一个较慢的过程理解对话,还有一个更快的过程几乎瞬时响应,"他说。
对话节奏因文化而异,所以团队在英语和普通话上训练了系统。它能够泛化到日语对话,尽管从未在日语上训练过——研究人员说,这证明模型正在捕获通用的时序线索。
在受控测试中,该系统识别对话伙伴的准确率达到80%到92%,混淆率为1.5%到2.2%(意味着系统错误地将外部说话者识别为对话参与者)。它将语音清晰度提高了多达14.6分贝。
智能体眼镜公司SoftEye首席执行官Te-Won Lee最近为商用开发了类似技术,他表示:"他们描述的是一个有趣且新颖的方向。但在实际应用方面,仍然面临许多挑战。"Lee的技术基于盲源分离,这是一种信号处理技术,试图在不事先知道源是什么的情况下从混合声音中筛选出单个声源。
Lee说:"在大多数环境中,你不会得到四个人整齐地轮流发言。你会遇到音乐、不可预测的噪音、人们互相打断。研究中描述的场景不是你在大多数真实环境中遇到的场景。"随着声音环境变得更加混乱,性能可能会下降。
不过,他认为该原型的超低延迟是一个重大优势。"当涉及在数百万设备中部署时,延迟必须极低,"他说。"即使100毫秒都是不可接受的。你需要接近10毫秒的东西。"
Lee还指出,几十年来的盲源分离和语音增强工作已经产生了能在各种噪音条件下工作的算法,通常将设备用户这一个期望的说话者从所有其他源中隔离出来。Lee说:"真实世界的语音增强就是将期望的语音从所有其他噪音中分离出来。这些技术更适用于不可预测的环境。"但在耳机或AR眼镜中,系统知道佩戴者打算与谁交谈,他说华盛顿大学的方法"如果场景符合他们的假设,可以非常有效"。
该系统严重依赖自我语音,所以长时间沉默可能会使其混乱。重叠语音和同时的轮流变化仍然具有挑战性。该方法不适合被动聆听,因为它假设主动参与。由于对话规范因文化而异,可能需要额外的微调。
错误检测也可能放大错误的人——这在快速变化的交流中是一个真正的风险。Lee补充说,从音乐到混乱声景的不可预测噪音仍然是一个主要障碍。"真实世界是混乱的,"他说。
接下来,团队计划使用大语言模型融入语义理解,使未来版本不仅能推断谁在说话,还能推断谁在有意义地贡献,让听力助手在跟随对话方面更加灵活、更像人类。
Q&A
Q1:这个主动式听力助手是如何工作的?
A:该系统使用人工智能检测人类对话中的自然轮流发言模式。它通过双耳麦克风和指向嘴部的音频滤波器提取用户语音作为锚点,然后识别与用户自然轮流发言的声音并增强它们,同时抑制其他不符合对话模式的声音,整个过程延迟低于10毫秒。
Q2:这项技术相比传统降噪耳机有什么优势?
A:传统降噪耳机只能选择完全隔绝声音或让所有声音进入,而这个听力助手能智能识别对话伙伴并只增强他们的声音。它不依赖距离、音量或方向,即使用户看向别处或有人距离更远但声音更大,系统仍能准确识别真正的对话参与者。
Q3:主动式听力助手在实际使用中有哪些局限性?
A:该系统严重依赖用户自己的语音,长时间沉默会造成混乱。在有重叠语音、同时轮流变化或不可预测噪音(如音乐、混乱声景)的环境中性能可能下降。它不适合被动聆听,需要用户主动参与对话,且可能因文化差异需要额外调整。
热门跟贴