2023年Alexa RE:Invent现场演示中,一个原型系统在用户提问中途切断了音频,造成12秒沉默,演示参与度评分从94%暴跌至71%。这个瞬间暴露了一个语音团队熟知却极少量化的问题:粗暴截断音频每会话浪费3-5秒,这些浪费的秒数对净推荐值(NPS)的损害超过偶尔的误触发。
传统语音活动检测(VAD)为何在对话流程中失效?能量阈值陷阱是首要原因。多数语音栈以简单能量阈值VAD起步,这对"仅唤醒词"场景够用,但对话是动态目标。背景电视、摔门声甚至助手自身合成语音的能量波动都可能跌破阈值,让系统误判用户已停止说话。日志显示,38%的错误打断检测发生在用户语音前200毫秒内。典型场景:用户说"turn on the living-room lights",系统却在"turn"后截断——因为短语进入较安静音素时能量峰值骤降。
行业应对是将VAD延迟压至100毫秒以下,希望更快捕捉打断。副作用是误报率飙升:算法尚未获得足够上下文来区分真实打断与自然停顿。结果是体验抖动,仿佛助手在"等待提示"而非参与对话。
我们重新定义了保护对话的打断窗口。动态静默填充取代硬截断:引入250毫秒自适应缓冲,助手说话时扩展,仅用户说话时收缩。缓冲由下游意图识别器的置信度分数驱动。当系统即将输出多句回答(如天气预报)时,缓冲拉伸以给用户真实插话机会。A/B测试显示,该自适应缓冲将错误截断减少42%。
意图感知门控将VAD接入意图流水线。若当前意图为"播放音乐"且自动语音识别(ASR)置信度高,则抑制接下来300毫秒的打断检测;反之,"设置计时器"意图保持更紧窗口,因用户常需在说话中途取消或修改请求。该门控部署至生产集群后,会话NPS measurable提升,且未增加可感知延迟。此方法现已成为Vocalis语音代理服务平台的标准功能,跨数十个品牌观测到类似收益。
实时检测的信号处理同样关键。原始谱通量噪声大,单个音符都可能看似语音起始。对通量曲线应用5帧指数移动平均(EMA)平滑后,检测抖动从78毫秒降至31毫秒。
热门跟贴