最近AI音频类的研究层出不穷,准确的说AI各类别的发展迭代都很快。《带你学AI》每天一篇文章已经不足以给广大的读者粉丝朋友学习。因此,以后会不定期的更新此类汇总类文章,希望大家多多支持 。 (链接在文章底部)

智谱 AI 推出的 GLM-4-Voice 是一种能直接“听”和“说”的语音模型。 它可以理解和生成中英文语音,支持实时语音对话。 不仅如此,GLM-4-Voice 还能根据用户的指令,调整语音的情感、语调、语速,甚至方言,带来更个性化的交流体验。

GLM-4-Voice 由三个部分组成:

  • GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。

  • GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟。

  • GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。

在预训练方面,GLM-4-Voice-9B 通过将 Speech2Speech 任务分解为文本回复和语音合成两个任务,利用文本和无监督音频数据的结合,经过数百万小时的音频和数千亿 token 数据的训练,提升了音频理解和建模能力。为了实现高质量的语音对话,模型采用流式交替输出文本和语音的架构,能够根据用户语音指令快速生成回应,最低只需 20 个 token 即可合成语音,保持低延迟。

Fish Speech推出Fish Agent V0.1 3B ,这是一种全新的语音模型,能够高精度捕捉和生成环境音频信息,可以直接语音转语音,还可以文字转语音 (TTS)。 它最大的特色是无需传统的语义编码器/解码器,比如 Whisper 和 CosyVoice,让语音处理更加直接。(暂时没有介绍如何使用)

Standard Intelligence近日开源了全双工、纯音频Transformer模型Hertz-dev ,它拥有 85 亿参数,专为可扩展的跨模态学习而设计。Hertz-dev 搭载了音频编码器 Hertz-codec 和音频解码器 Hertz-vae,使其能够高效处理和生成低延迟、高质量的音频。模型在 RTX 4090 上实现理论延迟 65 毫秒,实际延迟 120 毫秒,领先于一些公开模型两倍。

Meta推出了一款简单高效的音乐生成与编辑模型MELODYFLOW,它可以通过文字指令生成高质量的音乐。模型使用 48 kHz 立体声的连续潜在表示,避免了传统离散表示带来的信息损失。它基于一种扩散 Transformer 架构,能够按照文本描述生成或编辑不同时长的音乐片段。

MELODYFLOW 的编辑过程大致如下:首先将音频波形编码为初始的 xsrc,再输入到 ODE 解算器中。DiT 模型逐步预测从数据到噪声的变化速率 δ,并通过与一个人工构建的参考 ˜zt 比较来增强可编辑性。当达到目标编辑步数 Tedit 时,模型进入经典生成模式(图中从右到左的底部流程),但此时的起始潜在变量 ztedit 已经过优化,以更好地实现音频编辑效果,并保持与原始波形的一致性。

https://github.com/THUDM/GLM-4-Voice
https://huggingface.co/fishaudio/fish-agent-v0.1-3b
https://github.com/Standard-Intelligence/hertz-dev
https://huggingface.co/papers/2407.03648

欢迎交流~,带你学习AI,了解AI