随着大模型的出现和垂直领域语料库的成型,大模型与智能外呼场景的结合,带来了业务运营的创新,本文主要介绍了AI外呼在实际业务应用中的建设路径和实践经验,分享主要包括以下五个部分:

1. AI外呼的商业价值

2. AI外呼的技术架构

3. AI实现外呼端到端的闭环优化

4. AI外呼中大模型的应用

5. 落地挑战与应对方向

分享专家|冯勇 百融云创 副总裁

内容已做精简,如获取专家完整版视频实录,扫码领取

AI外呼依托于决策式AI和生成式AI两种技术,外呼包含了电话外呼,也包含企业微信中的文字客服。底层核心是通过服务大量的金融客户和大量的金融场景,知道行业各个场景的Know How,在这个过程中积累了大量的数据标签和产品标签,让事情真正能地做到闭环。

01

AI外呼的商业模式

AI外呼的商业模式一般有两种,大部分是按照坐席或者是外呼时长收费,本质上是卖工具。另一种是卖效果,按照最终的转化率去收费,根据客户使用外呼的业务场景,比如注册转化,或申请转化,或提款转化,或购买转化,通过提升转化率,从转化率中分成的业务模式。

02

AI外呼的技术架构

再来了解下AI外呼以及多模态ChatBot的技术架构。

第一部分在交互端。有文字类内容,也有基于电话的语音内容,和基于直播或者5G视频类的内容。

第二部分是中间的AI引擎模块。通过第一部分输入的文字、语音、视频通过ASR转成文字,通过VAD技术,识别用户的打断或者停顿,然后通过文字、TTS或者数字人视频的方式,最后输出到客户端。在这个过程中,输入的文字会进入对话管理环节,处理方式有两类。

一类是类似于规则驱动,设计整个话术流程。在主动对话和主动外呼的领域,实现类似于话术流程的设计,主导整个对话的流程,同时穿插过程中也会回答用户对于产品或者活动的提问,在每一轮对话中,都要理解客户的意图,根据意图再通过知识库提取适当的话术回答用户。

另一类是大量模型的辅助:

  • 大量的检测模型。比如说去检测对话的人是不是一个机器人,如果是对话助理或语音助理,那应该更早地结束对话,否则就是浪费对话成本。另外也可以检测用户的情绪,比如用户的言语是否粗鲁,或者在投诉,这时也应该尽早地结束对话。

  • NLP/Bert的小语言模型。通过模型加上规则共同识别用户的每一轮对话的意图

  • 大语言模型。大语言模型可以用在文本类的对话管理,但是在外呼场景中,它的延时性会是一个比较大的挑战。

第三部分是客服管理系统。包含了配置管理,坐席管理等等,其中AutoML是自动建模的流程,基于最终实际的外呼结果,能够进行全流程的自动化建模和更新。

03

AI实现外呼端到端的闭环优化

百融云创在传统的外呼流程中,进行了部分环节的调整,实现了AI外呼端到端的闭环。

  • 首先客户可以不采购工具、不配置话术的前提下,将名单进行托管,然后使用决策模型和用户标签筛选名单。筛选的核心是利用KYC+KYP做用户画像分析和产品分析,然后做出最佳匹配。比如说某款信贷产品,用户偏好的产品利率,或者偏好的额度是怎样的,经过筛选,在实际外呼之前,就可以勾画出用户的意愿。

  • 然后在接下来的外呼中,利用ASR的模型、意图识别的NLP模型、大量的检测识别模型配合使用。外呼结束之后,核心是要利用用户意向标签的模型,经过对话之后,用户对于产品的兴趣度判断,针对这些不同的用户类型,提供不同的触达策略。

  • 最后的环节是通过客户拿到类似于外呼的最终结果。比如申请转化率,或者销售转化率,再根据这些转化率,匹配到整个链条中各个模型实际的表现数据,在工程上面去做AutoML,就可以在各个环节去做实时的自动优化。

04

AI外呼中大模型如何应用

第一个是流程意图、知识库的搭建。这对于运营人员的工作量其实是相对是比较大的,其实可以利用大模型去做一些准备。比如拿到客户之前人工外呼的记录,用大模型进行训练和学习之后,再用大模型提炼整个流程,完成意图和话术生成,从而搭建整个知识库和配置管理。

如果利用传统的方式,可能要配话术师、配置师、AI训练师,他可能对一个客户就需要一周的时间去建立知识库,并且需要1-3个月的时间去反复地去优化。但利用大模型之后,只需要几个小时就可以把知识库和流程生成,而话术师和配置师只需要去做审核和调整,这会极大地节省工作量。

第二个是外呼效果方面。像传统的做法,在冷启动环节,生成知识库后需要1-3个月的调优时间,完善实际外呼过程中大量的知识库没有覆盖到,或者大量的流程、意图没有覆盖到,需要配置师每天去看实际的外呼数据之后,不断地补充新增Case。这个环节利用大模型可以开发Customer Agent,模拟用户跟外呼去做文本交互,有大量交互之后,就可以去检查整个外呼中流程话术和意图的覆盖度。在冷启动的阶段,去做这样的改善,能够保证ROI是相对比较好的效果。

第三个是质检方面。因为整个外呼都会有质检团队,人工质检虽然是抽样检查,但也需要很大的人力消耗。

在录音文件质检中,可以从以下五个方面利用AI的能力。

  • 首先会去关注ASR的准确率情况,这是整个外呼环节的基础。

  • VAD的准确率,通过用户的频繁打断、AI机器人的话术和音色是否很生硬等方面,去降低C端用户的机器人感知。

  • 语音助手的识别准确率,三大运营商都有类似于语音助手服务,如果不能识别出语音助手,其实会极大地消耗外呼的成本。所以在在第一轮对话,第二轮对话的时候,就要能够识别出语音助手,并马上转到整个对话的结束。

  • 语气和情绪的识别,如果客户情绪不佳言语激烈,或者要投诉,那就不能继续再去对话。

  • 错别字纠正,因为中文ASR有一个很大的问题——同音字的识别,这种纠错在整个录音文件中,是可以去用Audio Model去识别和调整的。

在通话记录分析中,大模型也可以进行质检应用。

  • 每一轮对话的意图识别准确率。在整个流程当中,每次的跳转都是靠意图来驱动,通过用大模型的理解能力,去判断真实对话中哪些意图是有问题的,或者哪些意图没有识别出来,就可以针对性的进行去补全,甚至可以把这些意图重新抽取出来,补充到意图库或者知识库里中。

  • 特殊关键词提取。

  • 用户意向标签的准确率。

05

落地过程中的挑战与应对方向

挑战一:ASR准确率和成本问题

当前行业中ASR准确率大是在90%到95%之间,不同的场景可能会有一些跳跃,如果低于几个百分点的时候,会导致后面整个链条的效果差距很多。所以在ASR这个环节一定要尽可能地把准确率拉到最好的程度。

我们可以做很多事情,包括自有语料的训练,因为自由语料的训练可以解决很多同音字的问题,在金融场景的语料都是正确的情况下,和泛ASR相比效果要好很多,也包括热词和方言版ASR的训练。

在整个AI外呼中,ASR成本相对还是比较高的,基本上可以占到整个外呼成本的1/3。如果这部分成本下降,对于整个AI外呼的成本实际上就有很显著的提升。

挑战二:实时识别对方是机器人

如果对方是机器人接听,第一会影响成本,第二是这种通话是无效通话。在实际过程中会发现,无效通话中是机器人的占比相当高,接近30%-40%的无效通话都是机器人。为了降低外呼坐席的浪费,在早期就能够识别出机器人,就会极大地节省成本。

而对话机器人中80%-90%是运营商提供的,运营商的ASR声音类型是比较常规固定的,可以通过声纹识别和对话文字识别结合,就能够做到90%的有效识别率。

挑战三:客户意向标签的准确率

首先要把分类要做准,只有分类准确后,才能决定真实的业务转化效果。

挑战四:海量坐席高并发和低延时的性能

目前百融大概是接近几万的坐席,接近几千万的日外呼量,这是非常大量级,而压缩到利用大概100台机器实现,这对硬件的IDC也是较大的成本消耗。

以上就是本次的分享内容,如获取专家完整版视频实录可扫码领取

华中科技大学计算机系统结构硕士。近20年互联网产品及金融支付系统研发经验,拥有多家大型上市集团及世界500强企业技术VP、CTO等履历。曾带领团队研发创建多个突破性金融支付系统及产品且在国内外落地应用中均被验证为top级标杆产品或应用。