接上文>>>

语音生成层面的数据、架构及其训练

2.1 语音生成的数据

语音生成数据集主要包括用于训练文本规范化(TN)模型和韵律模型(PM)的数据。 两种训练数据都增加了Llama 3嵌入的附加输入特征,以提供上下文信息。

  1. 文本规范化数据。我们的TN训练数据集包括55K个样本,涵盖了需要非平凡规范化的各种符号类(例如,数字、日期、时间)。每个样本是一对书面形式的文本和相应的规范化口语形式的文本,并推断出执行规范化的手工制作的TN规则序列

  2. 韵律模型数据。PM训练数据包括从一个50K小时的TTS数据集中提取的语言和韵律特征,这些数据集是由专业配音演员在录音棚环境中录制的成对的转录和音频。

  3. Llama 3 嵌入 Llama 3 嵌入被作为第16个解码器层的输出,专门使用 Llama 3 8B 模型,并提取给定文本的嵌入(即书面形式的输入文本用于 TN 或音频转录用于 PM),就像它们是由 Llama 3 模型在没有用户提示的情况下生成的一样

    在给定样本中,Llama 3 token序列中的每个块都明确地与 TN 或 PM 的原生输入序列中的相应块对齐,即TN 特定的文本token(由 unicode 类别划分)或分别为音素速率特征。这允许使用Llama 3 token和嵌入的流输入来训练 TN 和 PM 模块

2.2 语音生成模型的架构

据llama3.1的技术报告所说,语音生成的两个关键组件中使用了Llama 3 8B嵌入: 文本规范化和韵律建模

TN模块通过上下文转换书面文本为口语形式,确保语义正确性。PM模块通过使用这些嵌入预测韵律特征,增强自然性和表现力。它们共同实现了准确且自然的语音生成

  • 文本规范化。

作为生成语音语义正确性的决定因素,文本规范化(TN)模块执行从书面形式文本到最终由下游组件口头表达的相应口语形式的上下文感知转换 例如,书面形式文本 123根据语义上下文可以读作基数(一百二十三)或逐位拼读(一二三)。TN系统由一个流式LSTM序列标注模型组成,该模型预测用于转换输入文本的手工制作的TN规则序列(Kang等,2024) 该神经模型还通过交叉注意力机制接收Llama 3嵌入,以利用其中编码的上下文信息,从而实现最小文本标记前瞻和流式输入/输出

  • 韵律建模。

为了增强合成语音的自然性和表现力,Meta集成了一个仅解码器的基于Transformer的韵律模型(PM)(Radford等,2021),该模型将Llama 3嵌入作为额外输入 这种集成利用了Llama 3的语言能力,利用其文本输出和中间嵌入在token rate(Devlin等,2018;Dong等,2019;Raffel等,2020;Guo等,2023)来增强韵律特征的预测,从而减少模型所需的前瞻

PM集成了多个输入组件以生成全面的韵律预测:从上面详细描述的文本规范化前端派生的语言特征、token和嵌入

PM预测了三个关键的韵律特征:每个音素的对数时长、对数F0(基频)平均值和音素时长内的对数功率平均值。该模型包括一个单向Transformer和六个注意力头。每个模块包括交叉注意力层和两个具有864隐藏维度的全连接层

PM的一个独特特征是其双重交叉注意力机制,其中一层专用于语言输入,另一层专用于Llama嵌入。这种设置有效地管理了不同的输入速率,而无需显式对齐

2.3 语音生成模型的训练

为了支持实时处理,韵律模型采用了一种前瞻机制,该机制考虑了固定数量的未来音素和可变数量的未来token。这确保了在处理传入文本时的一致前瞻,这对于低延迟语音合成应用至关重要

对于训练

Meta开发了一种利用因果掩蔽的动态对齐策略,以促进语音合成中的流式处理。该策略结合了固定数量的未来音素和可变数量的未来标记的前瞻机制,与文本规范化过程中的分块过程一致。对于每个音素,标记前瞻包括由块大小定义的最大标记数,从而导致 Llama 嵌入的前瞻是可变的,但音素的前瞻是固定的

Llama 3 嵌入来自 Llama 3 8B 模型,在训练韵律模型期间保持冻结状态。输入的音素速率特征包括语言和说话者/风格可控性元素。模型训练在批量大小为 1,024 个话语的情况下进行,每个话语的最大长度为 500 个音素。我们使用 AdamW 优化器,学习率为 9 × 10−4,在 100 万次更新中进行训练,前 3,000 次更新进行学习率预热,随后采用余弦调度

对于推理

在推理过程中,采用相同的前瞻机制和因果掩码策略,以确保训练和实时处理之间的一致性。PM 以流式方式处理传入文本,逐个音素更新音素速率特征,逐块更新标记速率特征。新的块输入仅在该块的第一个音素当前时更新,保持训练期间的对齐和前瞻。

为了预测韵律目标,我们采用了一种延迟模式方法(Kharitonov 等,2021),这增强了模型捕捉和再现长距离韵律依赖的能力。这种方法有助于合成语音的自然性和表现力,确保低延迟和高质量输出

更多细节见七月在线「大模型项目开发线上营

↓↓↓扫码了解详情/抢购↓↓↓

课程咨询可找苏苏老师VX:julyedukefu008或七月在线其他老师