始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。
在人类的想象中,「Any-to-Any」是真正属于未来的人与 AI 交互方式。AI 能做到接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。
近日,智谱清言的「情感语音通话」就提供了一个真人一般的对话伙伴, 又一次推动了国产 AI 对标国际先进水平。
这个情感语音通话背后正是智谱的端到端语音模型GLM-4-Voice。这一成果使得大模型具备了完整的感官系统,实现了机器与人交互的自然与流畅。
具体来说,GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。
1、情感表达和情感共鸣:模拟不同情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适情绪语气 进行回复。传统 TTS 通常在情感表达上比较僵硬,声音缺少起伏和细腻变化。
2、调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。
3、随时打断,灵活输入指令:根据实时用户指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动。例如你可以随时打断 TA,让 TA 输出新的内容,更符合日常对话情境。
4、多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。
目前GLM-4-Voice 系列模型已经开源,并发布到始智AI wisemodel开源社区,欢迎大家前往使用。
模型地址:
https://wisemodel.cn/models/ZhipuAI/glm-4-voice-9b
https://wisemodel.cn/models/ZhipuAI/glm-4-voice-tokenizer
https://wisemodel.cn/models/ZhipuAI/glm-4-voice-decoder
01
开源技术细节
与传统的 ASR + LLM + TTS 的级联方案相比,端到端模型以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,避免了级联方案“语音转文字再转语音” 的中间过程中带来的信息损失,也解锁了更高的能力上限。
GLM-4-Voice 以离散 token 的方式表示音频,实现了音频的输入和输出的端到端建模。具体来说,我们基于语音识别(ASR)模型以有监督方式训练了音频 Tokenizer,能够在 12.5Hz(12.5 个音频 token)单码表的超低码率下准确保留语义信息,并包含语速,情感等副语言信息。
具体来说,GLM-4-Voice 由三个部分组成:
第一,GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加Vector Quantization 训练,通过在 ASR 数据上有监督训练的方式得到,将连续的语音输入转化为离散的 token,每秒音频转化为 12.5 个离散 token。
第二,GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音。
第三,GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个音频 token 即可开始生成,降低端到端对话延迟。
语音合成方面,我们采用 Flow Matching 模型流式从音频 token 合成音频,最低只需要 10 个 token 合成语音,最大限度降低对话延迟。
预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,我们将 Speech2Speech 任务解耦合为 Speech2Text(根据用户音频做出文本回复) 和 Text2Speech(根据文本回复和用户语音合成回复语音)两个任务,并设计两种预训练目标适配这两种任务形式:
Speech2Text:从文本数据中,随机选取文本句子转换为音频 token;
Text2Speech:从音频数据中,随机选取音频句子加入文本 transcription。
图|GLM-4-Voice 预训练数据构造
GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。
为了支持高质量的语音对话,智谱设计了一套流式思考架构:输入用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本模态作为参照保证回复内容的高质量,并根据用户的语音指令变化感情需求,在保证智商的情况下仍然具有端到端建模的能力,同时保持低延迟性(最低只需要输出 20 个 token 便可以合成语音)。
02
使用glm-4-voice镜像启动服务
在wisemodel的“算力”模块或者在“模型详情”页的“训练或微调”按钮,选择“glm-4-voice-9b-deploy”的镜像,选择单卡A5000或3090的配置即可运行,填写完成基础信息之后,点击“下一步”。
然后确认一下计费模式,提交订单之后基础环境就创建好了。
等待1分钟左右,开发环境就启动成功,进入运行中的状态。
通过SSH或notebook登录到开发环境上,然后到/home/GLM-4-Voice目录下面,把 模型服务启动起来,然后再启动 web 服务。
nohup python model_server.py --model-path /llm/ZhipuAI/glm-4-voice-9b > test.log&
python web_demo.py
服务启动成功之后,在开发环境申请一个服务端口和访问域名。
将申请好的域名复制到浏览器里就可以开始在线体验了。用户可以输入语音或文本,模型会同时给出语音和文字回复。
03
创建开发环境从零安装部署
智谱在github上提供了可以直接启动的 Web Demo。用户可以输入语音或文本,模型会同时给出语音和文字回复。
首先下载仓库
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voicecd GLM-4-Voice
然后安装依赖。
pip install -r requirements.txt
从wisemodel上把模型文件下载下来,保存到开发环境的存储目录下,这里已经下载到了/llm/ZhipuAI/路径下面。
#git 模型下载,请确保已安装
git lfs install
git clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-9b
git clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-tokenizer
git clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-decoder
Launch Web Demo首先启动模型服务
python model_server.py --model-path /llm/ZhipuAI/glm-4-voice-9b
然后启动 web 服务
python web_demo.py
加载成功之后,然后回到开发环境里申请一个服务端口和域名。
把域名复制到浏览器就可以开始在线体验了。
----- END -----
wisemodel相关:
系统升级:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
热门跟贴