技术前沿 | 百度曦灵数字人平台架构分享|中国上市公司|引擎|数字人|曦灵|百度|视频流|首次公开募股

全文约3800字，预计阅读15分钟

导读：百度曦灵数字人平台从 2019 年开始研发，平台致力于打造智能的服务型&演艺型数字人，面向金融、媒体，运营商、MCN，互娱等行业，提供全新客户体验及服务。该平台可进一步降低数字人应用门槛，实现人机可视化语音交互服务和内容生产服务，有效提升用户体验、降低人力成本，提升服务质量和效率。

全文目录：

百度智能云数字人发展和现状
架构分析
平台介绍
解决方案介绍

分享嘉宾｜何建斌百度 ACG AI产品研发部

编辑整理｜张续然百度

出品社区｜DataFun

百度智能云数字人发展和现状

1. 整体说明

百度数字人最早在 2019 年 7 月由百度和浦发银行联合发布。当时百度数字人是业内第一个金融数字人。从 2019 年到今天，我们在数字人方向持续做各种探索和实践，目前百度数字人的客户已经覆盖金融、媒体、运营商等行业。金融行业落地场景如线上理财推荐和线下智能大屏。其中线下智能大屏采用了全双工交互技术，用户不需要说欢迎词就可以直接问数字人问题。此外，金融行业我们还落地了 2D 数字人客服等场景。媒体行业的落地场景如央视康辉数字人和手语数字人直播。通过各类第三方机构的评价可以证明百度数字人目前处于行业第一梯队。

2. 价值主张

在价值主张方面，百度认为通过可视化交互，数字人能够为客户带来全新的客户服务体验。当前传统的交互模式主要有文字客服和语音客服等，在这之上我们判断下一代客服的交互形态会以数字人提供的可视化语音交互为主。这个判断主要源自于数字人带来的三大价值点。

高辨识的品牌形象

基于数字人可以建设可视化的企业 IP 形象，彰显企业科技创新能力，放大 IP 效应带来的客群吸引及宣传作用，最后助力构建线上线下一体化的服务能力。

多触点的客户服务

在渠道触点方面，数字人可以应用于客服、导购、短视频营销和趣味互动等多种场景，一个形象全渠道应用，通过多触点的覆盖能够为客户带来全新的服务体验。

有温度的用户体验

传统的交互方式会让用户感觉和机器在交流，数字人通过模拟面对面的交流形式，能够在单次交互中传递更丰富的信息内容，支持用户随时发问和打断，提供跨终端贴身服务。

3. 功能全景图

百度数字人平台全景图如上所示，从下往上看，AI 引擎是基于百度各种AI能力引擎包括人像驱动引擎、智能对话引擎、语音交互引擎和智能推荐引擎构建百度数字人的基础AI能力。资产生产线包括 3D 写实人像、2D 人像和 3D 卡通人像的统一资产生产和管理。三大平台主要是数字人的业务编排、人设管理和内容创作。业务编排主要用于构建数字人的业务应用场景；人设管理主要用于数字人的形象配置。内容创作主要是基于数字人完成内容生产工作。基于以上所述的平台和能力，百度数字人主要面向两个业务方向输出能力。服务型数字人主要侧重于实现数字人实现对人服务的业务。演艺型数字人主要侧重于通过更好看的形象实现演艺场景。在业务方向之上百度数字人已经构建覆盖金融、运营商、零售、互娱、政务和文旅等多个行业的垂直解决方案。

架构分析

1. 数字人简化交互流程

以上是一个简化的数字人交互流程。数字人提供的丰富技术应用能力和场景能力简化下来主要是以下几步：

第一步是用户与数字人对话，需要做 ASR、视频的结构化分析。
第二步是将音视频结构化结果送到对话引擎。
第三步是通过对话引擎对接第三方业务平台，比如在银行场景中用户要查余额，对话系统就需要对接银行的第三方业务系统获取查询结果，然后将查询结果反馈给对话引擎，以便进行下一步处理。
第四步是对话引擎返回需要呈现给用户的内容（文本、动作、Widget）。
第五步是渲染引擎进行渲染并呈现结果给用户。

简单来看，用户和数字人的交互过程就是以上五步。这个过程和做智能对话的服务过程非常相似，主要区别在于第一步的用户输入处理上，数字人系统需要做音频和视频的结构化解析。以及最后一步向客户反馈的内容不仅仅是语音或文本，还有动态的音视频画面。

2. 数字人云端渲染架构

基于以上简化流程经过适当拓展我们可以得出以上架构，这张架构图和之前一张架构图有一定相似性，前述图中的用户可以对应到这张图的客户端；音视频结构化的部分可以拆成多模态分析网关和 ASR。多模态分析网关用于视觉相关的处理；ASR 用于音频转文字的处理。以上处理完的结果会反馈到智能对话引擎，在智能对话引擎提供对话结果后就可以进入渲染数字人的环节。这里需要拆成两部分：文字到音频通过 TTS 实现。画面的渲染通过渲染引擎网关到渲染引擎中实现画面渲染。合成后的音视频流通过百度 BRTC 音视频服务将音视频流推送至前端实现一个可交互的数字人。

此外大家可以看到架构图中有不同类型的连线，这里做下解释。一般交互流程中我们会期待数字人可以很快的向用户做出反馈和应答，如果和一个数字人交互需要 4-5 秒甚至更多的时间做答复，那么其交互体验会非常差。上图中的部分流程我们可以看到是双向流式的，还有部分流程是单向流式的。双向流式在这里实现的是缩短反馈时间的效果，相比传统流程，双向流式不需要等到全部的音频返回再去做音视频流拟合，而是每有 1 帧音频返回就会同步送到下一步流程。通过这种技术我们可以实现数字人在 1 秒左右实现对用户交互问题的应答。

在功能全景中的其他功能也可以快速叠加到这个技术架构之上，比如渲染管线与该架构的集成。只需要业务人员基于业务需要发起建模请求，通过模型工厂服务完成模型的生产，然后生产完的模型会存储在当前架构中。当用户请求数字人服务时，只需要在渲染引擎动态加载模型，这样即可将全景图中数字人工厂的功能添加到本架构中。

同理主播和客服的真人接管能力也可以接入到本架构中。比如在客服真人接管方面，一般来说当智能对话引擎多次兜底后仍无法回答客户问题时，系统会把真人接管的请求推送到客服的业务平台，由客服人员进行人工接管。这时数字人平台会采集客服人员的上行音视频流，采集的音视频流经过动作捕捉和面部捕捉分析后，将相关的指令推送到渲染引擎实现数字人音视频流的渲染。在直播场景中一般没有客服业务平台和对话引擎，这时一般直接通过流程引擎拉取主播的音视频流，后续流程处理与客服真人接管相类似。

除了传统的中心机房渲染外，在实际业务应用上还有边缘渲染和就近推拉流的需求，这时就需要多机房的部署。实现这部分功能需要把相对无状态的服务拆到单个边缘机房内，提供信息共享的服务放在中心机房，然后在比如业务配置中心或者智能对话引擎等服务上同时需要额外增加全局资源池。这样在实际业务中，前端请求服务时首先会到全局资源池做请求，这时返回的是就近机房的服务地址，作为下一步请求的入口。

平台介绍

1. 人设管理平台

人设管理平台部分支持对 3D 数字人进行五官的捏制、美容以及服装/发型等元素的自助配置，主要用于增加数字人形象的多样性选择，打造企业专属的数字人形象。

2. 业务编排

数字人作为创新型业务，需要尽量降低用户的试错成本，快速落地验证业务价值。这里百度设计了基于文本的 DRML 语言，支持 0 改动接入客户已有的智能对话系统。DRML 语言是基于纯文本的，对于客户现有的智能对话服务没有特别的要求，数字人会根据文本来渲染其说话内容、动作形象和 Widget 等。这部分功能和 Chatbot 是解耦的，支持对接市面上所有的主流客服平台。由于该能力是文本进文本出，其本身也是对于 SSML 标签的扩展，兼容 SSML 规范。如果客户现有的对话是基于 SSML 配置的，那么不需要太多改动即可实现一个交互型数字人的打造。

百度数字人平台支持拖拽式的流程编排引擎，该引擎主要用于降低用户配置业务的门槛，能够支持 0 代码完成业务的开发。业务流程的开发完全基于拖拽式实现。这里的低代码其实主要分两块，一块指前端的低代码，另一块指后端流程的低代码。前端低代码指的是在页面上组件出现的位置可以自由配置。后端流程的低代码主要指当用户配置流程时，某个按钮在点击后下一步要跳到哪一个节点以及需要呈现什么样的内容。

3. 真人驱动

真人驱动在数字人业务中属于比较常见的能力。在面部捕捉方面，百度支持真人语音驱动数字人，这里百度也做了一个比较有趣的功能——变声器。客服人员可能是多样的，但是通过数字人可以实现千人一面的设计，不仅仅实现形象统一，也可以实现声音统一。在动作捕捉方面，百度支持两种方式，可以在不同场景上各有侧重。第一种是识别用户的动作并触发数字人的预置动作，适合在新闻主播场景中使用。第二种是基于单目 RGB 的视频动作捕捉，适合在平台直播场景中使用。

解决方案介绍

1. 虚拟主播