神经网络定制声音 (CNV) 是一种文本转语音功能,可用于为应用程序创建独一无二的定制合成声音。借助神经网络定制声音,可以通过提供人类语音样本作为训练数据来为品牌或角色生成听起来非常自然的声音,也常常被用于声音克隆

微软Azure神经网络定制声音(CNV)允许企业创建自然音效的合成语音,该合成语音经过人工干预。

定制声音可以适应语言和说话风格,非常适合为文本转语音解决方案添加独一无二的语音。

如何创建专业神经网络定制声音?

1.申请访问

了解对 AI 的负责任使用,并根据案件申请对 CNV 的完全查看

企业如何获取Azure AI语音服务

目前企业需要通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用Azure AI 语音服务、ChatGPT等的可能,满足国内发票需求。

通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

Azure OpenAI 免费试用:
ht
tps://azureopenai.cloudallonline.com/?zxwwy97

开发一个语音角色,该角色负责整体的声音和情绪

3.准备脚本

为本次研讨会准备的资料或利用示例

4. 录制歌词

在专业录音室录制示例和发音人声明

5. 训练声音

创建专业项目,上传录音和脚本,训练、测试和撰写声音

6. 集成

将应用的语音与语音SDK配合使用,或使用有语音内容创作工具来创建内容

微软神经网络定制的声音解决方案

使用微软神经网络定制声音(CNV),可以创建两种版本项目:精简版和专业版。下表总结了CNV精简版和CNV专业版项目类型之间的主要差异。

企业还可以搭配以下功能进行使用:

Azure 有声内容创作

使用神经网络定制声音创建音频内容

有声内容创作是一种易于使用且功能强大的工具,可用于为各种场景(如有声书、新闻广播、视频旁白和聊天机器人)构建高度自然的音频内容。借助有声内容创作,你可以以高效、低成本的方式微调文本转语音声音并设计自定义音频体验。

实时语音转文本

实时听录自己的音频,而无需编写任何代码
语音转文本 (也称为语音识别)支持将音频流实时或脱机听录为文本。

语音库

为项目寻找完美的讲话人
构建说话自然的应用和服务。从 140 多种语言和变体的 400 多种语音中进行选择。通过极具表现力和自然的声音让你的应用场景生动逼真。

微软语音服务Speech Studio 方案

浏览、试用和查看一些常见用例的示例代码。

  • 字幕:选择示例视频剪辑以查看实时处理或脱机处理的字幕结果。 了解如何将字幕与输入音频同步、应用亵渎内容过滤器、获得部分结果、应用自定义以及识别多语言场景的口语。 有关详细信息,请参阅字幕快速入门。
  • 呼叫中心:查看有关如何使用语言和语音服务分析呼叫中心对话的演示。 实时听录呼叫或处理一批呼叫,编修个人身份信息,并提取情绪等见解,有助于为呼叫中心用例提供帮助。 有关详细信息,请参阅呼叫中心快速入门。