品玩2月3日讯,据 9to5Mac 消息,苹果公司与特拉维夫大学的研究团队联合公布了语音生成新技术“原则性粗粒度”(PCG)。该技术显著提升AI文本转语音的生成效率,宣称能在完全保持原有音频质量的同时,将生成速度提高约40%。
PCG技术预先建立“声学相似组”,只要模型生成的预测结果落在正确的相似组范围内,即可被采纳。该技术结合了“投机解码”策略,采用一大一小双模型协作。小模型快速提出候选语音单元,再由大模型判断其是否属于正确的声学组。这种分工协作在保证质量的前提下大幅提升了效率。
实验数据显示,应用该技术后,语音自然度评分仍保持在4.09分的高水平。此外,PCG属于推理阶段的优化方案,无需对现有模型进行重新训练即可应用,且额外内存占用极小,具有很高的实用价值。
打开网易新闻 查看精彩图片
热门跟贴