打开网易新闻 查看精彩图片

苹果联合特拉维夫大学研究人员提出一项新技术以提升人工智能语音合成速度。该研究成果于2026年2月2日由科技媒体9to5Mac报道,介绍了一种名为“原则性粗粒度接受”(Principled Coarse-Graining, PCG)的新框架,可在不牺牲语音清晰度的前提下,显著加快文本转语音(TTS)过程。

该技术针对目前主流的自回归语音生成模型存在的效率瓶颈问题。这类模型逐个生成音频标记(acoustic tokens),每次只能预测下一个音段,导致处理速度受限。由于系统通常严格匹配预期音段,即使声学上相近的替代音段也会被拒绝,从而降低生成效率。

PCG方法的核心在于将声学特征相似的语音标记归为同一组,使系统在验证阶段不再追求完全精确的标记匹配,而是判断候选标记是否属于正确的“声学相似组”。这一机制引入两个协作模型:一个小模型快速提出语音标记建议,一个更大的判别模型负责审核其所属声学类别,实现更高效的推测性解码(speculative decoding)。

实验结果显示,采用PCG后语音生成速度提升了约40%,远超传统推测性解码在语音模型上的表现。同时,该方法保持了较低的词错误率,保留了说话人特征一致性,并在自然度评分中获得4.09分(满分为5分的人工评估标准)。在一次极端测试中,研究人员替换了91.4%的语音标记为其组内近似值,系统仍维持稳定输出,词错误率仅微增0.007,说话人相似性下降0.027。

该技术具备实际部署优势,无需对现有语音模型重新训练,仅作为推理阶段的解码优化即可应用。此外,PCG额外占用资源极少,仅需约37MB内存存储声学分组信息,适合在内存受限的设备端运行。尽管论文未明确提及具体产品应用,但该进展有望未来应用于Siri、实时语音交互或离线语音合成等功能,提升响应速度与能效表现。

此项研究由苹果与特拉维夫大学合作完成,相关技术细节已发表于公开论文《Principled Coarse-Grained Acceptance for Speculative Decoding in Speech》。

来源:9to5Mac,发布日期:2026年2月2日

参考链接:
https://9to5mac.com/2026/02/02/new-apple-study-shows-how-grouping-similar-sounds-can-speed-up-ai-speech-generation/