最近,微软发表了一篇博客,宣布其TTS(Text to Speech,即文本转语音)语音库更新了9个AI语音角色,比起以往的AI语音要更加真实,可以适用于各种会话场景。其中包含了一种更新的中文女性角色:“晓晓”,试听效果非常炸裂:

以后,人耳再也分辨不出是真人还是机器人的声音了。

为了让你有更好的体验,让我们先听一下以前(现在)“晓晓”的声音:

是不是还有很明显的机械感,跟我们现在平常接到的机器人营销电话类似,一些老人可能分辨不出来,但年轻人仔细听还是能分辨出来不是真人。但新的“晓晓”已经完全让你无法分辨是不是真人了:

不要怀疑,你听到的就是AI合成的语音。视频中“晓晓”主要演示了两种场景下的声音效果,线下聊天场景和播客场景,两种场景的语气、停顿都非常逼真。

基于大语言模型微软官方介绍,这些语音借助了大语言模型的强大能力,比如OpenAI搭建在Azure云上的GPT服务。在口头对话场景中,声音的表现力至关重要。通过GPT,可以生成比以往更加自然、流畅且高质量的人声效果。除了使用“晓晓”的默认语音,还可以使用您自己的音频样本作为训练数据,创建独一无二的自定义语音。现在基于OpenAI的新的语音效果暂未全面开放,仅适用于美国等部分地区。

待全面开放后,可以使用Azure AI的Speech Studio来构建如此自然流畅的应用和服务。

微软AzureAI TTS,微软出品的一种语音服务功能,可将文本转换为逼真的语音。是目前最好用的文字转语音工具。注意,没有之一。

通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用微软tts的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

微软 Azure OpenAI 申请https://azureopenai.cloudallonline.com/?zxwwy50

对于企业来说,目前,Azure AI 推出9种新的真实语音,为企业使用对话的业务场景提供更好的选择和多样性。新的逼真声音非常适合任何需要逼真语音交互的应用程序,包括聊天机器人、语音助手、游戏、电子学习、娱乐等

具有神经网络真人发音、支持在线体验和本地部署(通过Docker等方式)。该项目是开源的,后端依赖于微软的Azure语音模型。

有免费版和付费版,免费版有额度上限,企业也可以先免费试用

随着高质量、类人人工智能语音的出现,行业和应用程序正在发生转变,使与设备和服务的交互变得更加容易和自然。现在,在人机对话交互中,借助Azure OpenAI GPT等大型语言模型 (LLM) 的强大功能,AI 可以产生比以往更自然、流畅和高质量的响应,价格也更加低廉。因此,在进行口头对话时,对文本转语音 (TTS)声音的自然性和表现力的要求比以往任何时候都更高。目前,Azure AI 推出9种新的真实语音,为企业使用对话的业务场景提供更好的选择和多样性。新的逼真声音非常适合任何需要逼真语音交互的应用程序,包括聊天机器人、语音助手、游戏、电子学习、娱乐等

例如,对于语音代理场景,Yellow.AI 使用 Ava 语音进行客户支持。

目前,所有新的多语言声音,包括最近的公共预览更新, 都具有更加对话式的风格,源于不同的主要语言。这一扩展增强了企业表达 91 种语言及其变体内容的能力。

新推出GA 语音包括:en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、De-DE-FlorianMultilingualNeural、De-DE-SeraphinaMultilingualNeural、Fr-FR-RemyMultilingualNeural、Fr -FR-VivienneMultilingualNeural 和 zh-CN-XiaoxiaoMultilingualNeural。