微软数字人：Azure AI 中的TTS“文本转语音”数字人上线啦|ai|azure|tts|应用程序|微软数字人|虚拟形象

Azure AI Speech服务的一项功能“文本转语音 (TTS) Avatar”现已向开发人员、企业和内容创建者开放。

这项服务让自然的声音和逼真的头像栩栩如生，增强了客户参与度和整体体验。借助 TTS Avatar，开发人员可以为客户和员工创造个性化和引人入胜的体验，同时提高效率并提供创新解决方案。

参考链接：https://azureopenai.cloudallonline.com/?zxwwy267
微软文本转语音TTS数字人、OpenAI等免费试用申请

TTSAvatar 服务为开发人员提供了各种预构建的头像，具有多样化的自然声音组合，并可以使用 Azure Custom Neural Voice 创建自定义合成语音。此外，逼真的头像可以根据公司的品牌进行定制。开发人员可以根据其应用程序的需求使用 TTS Avatar 实时或通过批处理模式生成语音和头像。

优先考虑负责任的 AI 是我们的文本转语音头像功能的基础。我们开发它以遵守我们的负责任 AI 原则，并提供自定义头像作为有限访问服务，只有少数用例通过受控申请和审核流程获得批准。滚动到本博客的末尾，了解有关TTS Avatar 负责任 AI 方法的更多信息。

选定的用例和客户

让我们仔细看看 TTS Avatar 的一些主要用例：

客户服务

聊天机器人是企业提供全天候客户服务的流行方式。Azure TTS Avatar 可以通过提供更加个性化和引人入胜的互动来帮助提升客户体验。虚拟形象可以回答客户问题、提供故障排除帮助，甚至帮助客户完成交易。这提高了客户满意度并减少了客服人员的工作量。

随着 TTS Avatar 的全面上市，我们正在与世界各地的客户和合作伙伴密切合作，为各行各业开发引人入胜的客户服务解决方案。

跨国专业服务网络毕马威 (KPMG) 正在利用 TTS Avatar 为其客户创建个性化且引人入胜的客户服务解决方案。

毕马威德国/西南地区执行合伙人 Sina Steidl-Küster 表示： “通过利用 Microsoft Azure 的带有自定义神经语音的 TTS Avatar 服务，企业可以为客户和员工创造个性化且引人入胜的体验，同时还能提高效率、提供创新解决方案，并降低某些客户服务领域的成本。”

富士胶片正在将 TTS Avatar 与全球首个人工智能健康筛查中心NURA结合起来。

“NURA 采用 Azure TTS Avatar 作为我们的 24 小时 AI助手，标志着医疗保健创新迈出了关键一步。在 NURA，我们设想未来 AI 助手将重新定义客户互动、品牌管理和医疗保健服务。与微软合作，我们很荣幸能够开创下一代数字体验，彻底改变企业与客户联系的方式并提升品牌体验，为个性化护理和参与的新时代铺平道路。让我们一起带来更多微笑，”富士胶片 Nura AI 健康筛查执行董事兼首席运营官 Kasim 博士说道。

西班牙保险公司MAPFRE正在使用 Azure TTS Avatar 制作视频，以改善沟通和效率、推动创新并优化流程。

“在 MAPFRE，我们评估了微软的 Avatar 服务，它为我们带来了巨大的价值，因为它能够增强用户体验并促进协作。此外，它的使用可以推动创新和优化流程，为我们的组织增加巨大的价值，”MAPFRE 西班牙首席数据官 Ubaldo Gonzalez 说。

综合数字营销公司Dentsu Digital正在使用 Azure TTS Avatar 生成逼真的声音和头像，以增强整体客户体验并促进协作。

电通数字公司执行副总裁杉浦智彦表示： “新挑战总是需要大胆的应对方法。我们非常荣幸能与微软合作，利用他们的尖端技术和专业知识，旨在将这一愿景付诸实践，开创一个新时代。”

永丰银行在其自助服务终端中启用聊天机器人来与客户交谈和互动。

永丰银行首席信息官沈志强表示：“Azure的TTS Avatar技术让人们对逼真的代理抱有很大的期待。随着AGI秒级的即将到来和持续演进，我相信未来会有更多丰富、创新的金融服务和效率提升应用。 ”

康宝莱正在与微软合作为其产品打造实时聊天机器人。

“康宝莱一直致力于寻找创新解决方案来提升人们的健康。与微软的合作推动我们走向未来，并以前所未有的方式将我们的全球社区联系在一起。借助利用文本转语音和自定义神经语音专业技术的人工智能化身，我们可以更灵活地回答询问、提供健康提示和建议，从而使我们的消费者过上最好的生活。”康宝莱全球数据、分析和人工智能副总裁 Monica Kedzierski 说道。

可口可乐公司工程、数据和人工智能高级总监 Lokeshwar R Vangala恰如其分地指出：“普通的聊天机器人已经过时了。通过虚拟化身和影响者进入新时代！微软的虚拟化身具有自定义神经语音 (CNV)，彻底改变了客户支持和营销，提供栩栩如生的互动，以前所未有的方式吸引用户。这些虚拟化身增强了用户体验，提供个性化帮助，并提高了品牌忠诚度。在竞争激烈的 GenAI 领域，微软的可扩展技术是保持领先地位并提供无与伦比价值的关键。”

电子商务

虚拟形象也被用于电子商务，以提供更加个性化和引人入胜的购物体验。视频是企业与客户互动的有力手段。流媒体商务是一种全新的购物方式，涉及产品和服务的实时流媒体视频。这使客户能够与主持人互动并进行实时购买。

例如，京东的微软商店正在利用虚拟形象来增强直播商务体验。在直播活动期间，栩栩如生的虚拟形象可以与客户实时互动，提供产品信息并回答客户问题。虚拟形象还可以协助购买过程，让客户无需离开直播平台即可轻松完成交易。借助 TTS Avatar，京东的微软商店能够推动销售并提高客户参与度，同时促进客户与品牌之间的合作和信任。

内容消费

TTS Avatar 通过将文本转换为自然、类似人类的语音，使内容易于访问且方便使用，从而显著提高了内容消费率。虚拟形象的视觉元素通过类似人类的情感增加了参与度，而其定制功能则提供了个性化的用户体验，从而提高了满意度和忠诚度。此外，通过支持多种语言，TTS Avatar 打破了语言障碍，使内容更具包容性，并可供更广泛的受众使用。

Mediapro是欧洲视听领域的领先集团，在内容集成、制作和视听分发方面独树一帜，目前正与微软合作创新其数字通信。“我们创建了 AIMar，这是一个基于 MSFT 技术的虚拟形象，专为通信部门设计。AIMar 模仿真正的通信专业人员，能够随时以任何语言生成通信消息和活动，”Grup Mediapro 人工智能卓越中心负责人 Mayte Hidalgo 说道。

使用 GPT-4o 的 TTS 头像

通过集成 Azure OpenAI 服务 GPT-4o，可以轻松开始使用批量合成的 TTS 头像进行视频创建，以及使用实时合成进行实时聊天。

开发人员可以利用 Azure TTS Avatar 的 API 和 SDK 将该服务集成到他们的应用程序中。API 和 SDK 提供了一个简单易用的界面来生成语音和头像，使开发人员可以轻松地将 Azure TTS Avatar 纳入他们的工作流程。查看有关实时聊天合成头像和批量合成头像的文档。

我们还提供示例代码，以帮助将文本转语音虚拟形象与 GPT-4o 模型集成。详细了解如何使用实时虚拟形象和 Azure OpenAI 服务创建逼真的聊天机器人，或在此处深入了解代码示例（JS 代码示例和python 代码示例）。有关使用 Azure OpenAI 服务On Your Data创建实时聊天应用的指导，请参阅此示例代码（搜索“On Your Data”）。

这是与 GPT-4o 集成的 TTS 实时聊天头像的演示。

有关 TTS Avatar 功能的区域可用性，请在此处了解更多信息。

负责任的 AI 注意事项

微软认为，当你创造能够改变世界的技术时，你还必须确保负责任地使用该技术。我们的目标是开发和部署能够产生有益影响并赢得社会信任的人工智能。我们的工作遵循一套核心原则：公平、可靠和安全、隐私和安全、包容性、透明度和问责制。我们通过尖端研究、一流的工程系统以及卓越的政策和治理采取跨公司的方法。

像 TTS 虚拟形象这样的技术具有创造激动人心、神奇的新体验的巨大潜力。然而，如果不负责任地使用它们，它们也会带来风险。基于我们在自定义神经语音方面的经验，我们设计了 TTS 虚拟形象，并制定了一套负责任的 AI 指南、流程和技术控制，以帮助确保该技术不会被用于不恰当地代表某人或误导观众。

我们在 Azure TTS Avatar 中集成了安全功能和指南。其中包括提高用户交互透明度的措施、识别和减轻潜在偏见或有害合成内容的机制等。

在本透明度说明中，我们描述了 TTS Avatar 的技术和功能、其已获批准的用例、选择用例时的注意事项、其局限性、公平性考虑以及提高系统性能的最佳实践。我们要求所有开发人员和内容创建者在使用头像功能（包括预建和自定义头像）时遵守我们的行为准则。

为了确保负责任地使用该技术，我们对自定义头像功能的访问权限进行了限制。自定义头像仅可通过注册获得，并且仅适用于某些用例。要访问该功能，请按照受限访问说明注册您的用例。除了受限访问权限外，您还需要在创建与演员外表相似的头像模型之前获得头像人才的明确许可。我们要求每位客户上传一个录制的视频文件，其中包含头像人才的预定义声明，确认客户将使用人才的图像和声音来创建 TTS 头像。

为了更清楚地了解文本转语音虚拟形象所创建的视频内容的来源和历史，我们采用了内容来源和真实性联盟 (C2PA) 标准。此标准提供有关 AI 生成视频内容的透明信息。有关 C2PA 与文本转语音虚拟形象集成的更多详细信息，请参阅Azure 文本转语音虚拟形象中的内容凭据。

此外，头像输出中还添加了不可见的水印。这些水印允许获准用户识别视频是否使用 Azure AI Speech 的头像功能合成。符合条件的客户可以使用 Azure AI Speech 头像水印检测功能。若要请求对给定视频进行水印检测，请联系avatarvoice[at]microsoft.com。

Azure AI 内容安全已集成到视频创建场景的文本转语音虚拟形象的批量合成过程中。这一额外的文本审核层允许检测冒犯性、危险性或不良文本输入，从而防止虚拟形象产生有害输出。文本审核功能涵盖多个类别，包括性、暴力、仇恨、自残内容等。它可用于在 Speech Studio 中和通过批量合成 API 批量合成文本转语音虚拟形象。

TTS Avatar 建立在安全且合规的云基础架构 Microsoft Azure 上。在此详细了解如何处理和保护您的数据。

开始使用

对于希望增强客户参与度和改善整体体验的开发人员来说，Azure TTS Avatar 是一款功能强大的工具。通过各种用例和客户参考，可以清楚地看出 Azure TTS Avatar 正在为客户参与度和创新的新时代铺平道路。作为开发人员，您可以使用 Azure TTS Avatar 通过丰富的预建头像和声音选择为您的客户和员工创造个性化和引人入胜的体验。您还可以利用自定义头像和自定义神经语音来创建听起来像您的品牌的自定义合成语音和图像。凭借促进透明度和公平性的负责任的 AI 功能，Azure TTS Avatar 可帮助您创建包容性和道德的应用程序，为各种用户提供服务。