打开网易新闻 查看精彩图片

在一家头部金融公司的运营中心,总监李明(化名)的目光总是在两根曲线上游移——“接通率”与“客户满意度”。他苦笑着说,“这是我们的生命线。一根是成本,是饭碗;另一根是体验,是悬在头上的剑。”

李明的焦虑,来自我们采访过的一个行业客户心声,可以说也是过去多年来金融客服行业的集体写照。

我们都曾碰到过那个笨拙的「客服」。你问利率,它给你背产品说明;你问额度,它让你重复问题;你稍微带点情绪,它就卡壳,只会一遍遍重复“对不起,我没明白”。

企业像训练鹦鹉一样,给它喂了成千上万条「话术」,搭建了迷宫般的「流程树」,试图让它模仿人的对话。结果造出的,是一个脆弱的答题机器,它只能走在预设的轨道上,一旦用户偏离剧本——打断、追问、哪怕只是换成口语化的说法,最终,电话那头是暴怒的客户,电话这头是无奈转接的人工坐席。人机都不满意,这是我们被困住的尴尬地带。

直到一次偶然,我正刷着手机,误入了一个直播间,才了解到现在的「智能客服」,早已不可同日而语。用一个词形容,就是变得有“活人感”。

我们通过一个情景演示,直观感受一下现在的智能客服,已经next level了。

智能客服:“你好,你是张先生吗?”

张元(扮演客户):“是的,哪位?”

智能客服:“张先生?我是云客服,我们现在给您账户里面发了一张优惠券,活动截止到晚上8点,到时候您可以……”

张元:“怎么操作呀?怎么领取呢?” (突然打断,并提出一个流程外的问题)

智能客服:“您可以到我们云客服APP或点击短信中的链接,您也可以到手机的拦截里面找一下云客服开头的短信,还请尽快操作哦。”

张元:“在微信上能领吗?”(这里开始测试客服的知识问答能力)

智能客服:“可以的,您可以到我们云客服微信小程序里操作也是一样。” (流畅接住,毫无卡顿)

张元:“好的,我等下就去看一看。好,再见。”

智能客服:“好,那我这边就先不打扰您了,祝您生活愉快,再见。”

通话结束后,屏幕右侧立刻弹出这通电话的「会话分析」,整个通话的SOP流程一目了然,甚至客户的情绪、语气、意图都被精准捕捉,并分析客户意图。

顺手查了下数据,才发现因为大模型,这种有活人感的智能客服,未来不但会越来越多,甚至真的会给金融企业省钱。Gartner数据显示,到2025年,80%的公司正在或计划采用AI聊天机器人进行客户服务。而Plivo数据指出,AI驱动的客服团队节省了45%的通话时间,解决客户问题的速度提升44%。

金融客服非变不可的「十字路口」

金融客服非变不可的「十字路口」

变革的发生,往往始于旧模式的难以为继。

“传统的人工外呼和传统的机器人外呼,都进入了业务瓶颈期。”直播间里,阿里云新金融行业线高级解决方案架构师霍俊涛直指根本问题。

说起传统的人工外呼,最大的痛点正是“人工”,人员流失率高得惊人。一个熟手坐席的培养周期至少要3-6个月,培训成本和时间投入都很大,而居高不下的流失率,就像一个永远填不满的沙漏,服务质量很难保持稳定。

雪上加霜的是,客服这个行业的业务目标也在变化。以前,大家关注的是三个维度——“客户满意度”、“电话接通率”、“通话时长”。

而现在,KPI直接变为一个维度——“业务成单率”或“业务转化率”。说白了,客服不再是花钱的部门,而是被推到了利润中心的前线。

当行业开始用机器人外呼,结果却是从一个坑跳进另一个坑,因为即便引入了NLP(自然语言处理),传统的机器人外呼已经存在三大硬伤。

硬伤一,理解不足混淆意图,俗称“听不懂人话”。传统的机器人外呼,严重依赖关键词匹配,每个意图可能配置50条相似话术,导致它对于模糊、口语化、上下文混淆的表达束手无策。用户说“利息多少”它能懂,但如果说“用一万块钱一天大概要还多少啊”,它可能就懵了。

硬伤二,剧本流程配置复杂,俗称“死脑筋”。传统方式上,运维人员通过类似流程图的方式配置对话流(SOP),像个写死的剧本。导致一个复杂的业务流程,可能配置成百上千个对话节点,不仅构建成本高,后期维护更是噩梦。

硬伤三,机械感无人情味。传统客服的回复内容固定,语音合成(TTS)技术生成的语音,一听就是机器人,缺乏亲切感,用户自然不想多聊,更别提转化率。

这三个硬伤,就像三座大山,压得传统客服喘不过气。而大模型的出现,就是那把移山的“斧子”。

与传统的NLP客服相比,在大模型加持的智能客服,具有更强的拟人化、自然语言理解、个性化服务、多模态交互和情感分析等能力。

首先,它的响应速度在300毫秒以内,尽可能消除对话的延迟感。其次,它能够处理包括文本、语音、视频在内的多模态输入,对于标准问题,可以映射知识库给出精准回答;对于流程外的“逃逸问题”,它也有生成式能力,实时生成补充话术,不卡壳和兜圈子。

更进一步,在金融这类高风险行业,大模型加持的智能客服,让风控也走向了“实时”。大模型能在通话过程中实时进行质检和风控,一旦识别到潜在的合规风险或客户投诉倾向,会立刻向坐席发出预警,从而提前干预和安抚,将问题化解于萌芽状态。

直播间里,霍俊涛将大模型加持下的智能客服的进化,总结为一个非常传神的词——模力时刻

打开网易新闻 查看精彩图片

这五项能力,就像五根支柱,撑起了一个全新的智能客服体验,它是一个真正意义上的数字员工,一个能听懂、会思考、有温度的伙伴。

当然,大模型加持的智能客服虽好,但也不是一步到位。霍俊涛讲到,在实际落地实践中,智能客服存在三种使用范式。

范式一:入门级(筑基)。利用「通用大模型+知识库」的模式,快速搭建一个能处理标准问答的客服系统。这适合业务场景相对简单的起步阶段。

范式二:进阶级(结丹)。在「语音场景(ASR/TTS)」,引入专业的「智能体(Agent)」,并与企业自身的「业务流程(Workflow)」相结合,这使智能客服能处理更复杂的业务。

范式三:高阶级(元婴)。这是最高阶的形态,通过对「语言热词」、「意图判断模型」进行专项训练和优化,实现对客户语言的深度理解。同时,将「Agent、业务流程(workflow)与质检模型训练」全面打通,形成一个高度自动化、智能化的服务与运营闭环。

打开网易新闻 查看精彩图片

‍庖丁解牛,一步步唤醒你的专属客服

‍庖丁解牛,一步步唤醒你的专属客服

概念讲完了,实操环节开始了。阿里云新金融行业线技术服务专家张元介绍:“智能客服核心技术由4个部分组成:语音识别(ASR)、实时会话、语音合成(TTS)、会话分析。”

第一步,语音识别(耳朵):负责将用户的语音,通过语音大模型,实时转成文字。

第二步,实时会话(大脑),这是最重要的部分:根据识别出的文字,借助Qwen-Plus大语言模型,从预设的意图知识库中快速理解用户的真实意图,并准备话术来回应。

第三步,语音合成嘴巴):把准备好的话术,用个性化声音说出来。

第四步,会话分析(记忆中枢):电话挂断后,生成完整的通话日志,分析结果会沉淀到客户管理系统中,为下一次服务做好数据准备,实现经验积累和持续优化。

打开网易新闻 查看精彩图片

我们整体来庖丁解牛,看看这个有活人感的智能客服具体是怎么练成的。

第一刀:造“耳朵”——让机器听得懂。

“我们用到的第一款核心产品,是阿里云的智能语音交互。”张元说,它的核心作用就两个:把声音转成文字(ASR),再把文字转成声音(TTS)。这里举几个例子:

·智能断句:人说话是流式的,机器怎么知道你一句话说完了?这里可以设置最大静默时间(默认值为800毫秒),超过这个时间不说话,就认为是一句完整的话。

·噪音参数阈值设置:环境音嘈杂的情况下,可能会影响主体声音的识别,这部分也需要设置一个阈值。

·热词库:金融行业有大量专业术语,比如“逾期”“借贷”“云小贷”等,或者一些特定的产品名。把这些词加入热词库,就能大大提升识别准确率。

打开网易新闻 查看精彩图片

第二刀:调“嗓子”——让声音充满“人情味”。

“耳朵”听到了声音,接下来就轮到“嘴巴”——语音合成(TTS)。

这部分同样在智能语音交互产品中。模型本身支持数百种语言,像粤语、河南话、陕西话等方言,还有客服音、萝莉音等特色音色。而且它还支持声音复刻(Voice Cloning),也就是说,企业可以复刻自己品牌代言人、金牌销售、甚至CEO的声音,打造独一无二的品牌声音。

“最近的模型,甚至能提供情感指数的调节,比如客户如果情绪激动,我们可以用一种更安抚的语气去回应。”张元补充说明。这让我想起了电影《Her》,一个好的声音,本身就是一种强大的沟通力量。

打开网易新闻 查看精彩图片

实际演示中,进入阿里云官方网站,直接搜索「智能语音交互」,就可以找到它的控制台。进入控制台之后,界面非常简单,点击「开始创建项目」,选择项目类别,包括「语音识别」、「语音合成」、「会话分析」,根据需求勾选或全选即可。

当然,对于追求极致性能的金融行业来说,通用模型是不够的,如何让模型更懂金融业务?这里,「智能语音交互」平台提供了一个“自学习平台”,用于模型的专项优化。优化主要通过两种方式进行:

第一种是热词优化。这正是对上文提到的“热词库”功能的具体实践。在平台上,可以将业务中高频出现的专业术语、人名、地名、产品名(如“云小贷”)等批量添加进去。如此,模型在识别时就会优先匹配这些词汇,提升垂直业务场景的识别准确率。

第二种是更深度的模型定制。如果企业已经积累了大量的通话录音和文本标注,就可以将这些语料上传,形成一个专属的「数据集」。然后,利用该数据集对基础模型再训练,打造一个完全契合自身业务场景的定制化模型。训练完成后,平台还支持效果评测。

张元展示了他此前做的评测结果,使用通用模型时,准确率是98.15%;但当他上传自有语料训练后,新模型的准确率提升至99.31%。这意味着,企业投入的语料越丰富、质量越高,模型效果的提升越立竿见影。

第三刀:建“大脑”——智能客服的核心。

这是全场最关键的部分。客服聪不聪明,关键就看大脑。这个“大脑”,在阿里云的产品体系里,叫做「通义点金」

“做智能客服系统,如果能把意图识别准,基本上它的回答就非常准了。”张元一语道破天机。

那么,什么是“意图”?

举个例子:用户可能会说“怎么操作?”、“如何领取?”、“在哪儿弄?”,这100种不同的问法,背后的“意图”其实只有一个——询问操作方法

通义点金的核心能力,就是构建一个强大的「意图库。当然,意图也分两种:

第一种,是流程意图,服务于特定业务流程的意图,比如“核验身份”、“产品邀约”、“客户挽留”。这些意图是有先后顺序、强流程性的。

第二种,是知识意图,客户随时可能提出的问题,比如“利息多少?”、“卡冻结了怎么办?”。这些问题是发散的,可以在流程的任何节点插入。

这种“流程意图+知识意图”的双轨制设计,完美平衡了“会办事”和“会回答”两大需求,让客服既能沿着主线任务前进,又能随时处理用户的突发情况或节外生枝。

在通义点金的界面上,我们该如何一步步搭建好「意图库」?

实际演示中,进入阿里云官网,直接搜索「通义点金」,就可以找到它的控制台,核心在于三步走。

第一步是创建「意图库」,可以先起个名字,然后在库中添加具体的「意图」,例如询问利息,并附上详细描述,比如“用户咨询关于贷款、存款等产品的利率问题”,这个描述非常关键,它能帮助AI判断用户的提问是否命中了这个意图。其中,通义点金一个很智能的功能是「递进话术」,用户第一次问,智能客服回答A话术(一个相对简洁的回答);用户第二次还问,自动切换到B话术(一个更详尽的解释),让沟通更具层次感和人性化。

打开网易新闻 查看精彩图片

第二步,则是为意图库搭建一个「对话场景」,输入场景名称,需要配置关键的对话元素,包括决定第一句话的“开场白”和应对未知问题的“兜底话术”,开场白甚至可以设置节日问候;兜底话术,则是当系统出现参数异常等意外情况,或者完全没听懂用户在说什么时,需要回复的通用话术,避免冷场。

打开网易新闻 查看精彩图片

第三步,设置会话总结」。这是非常实用的一个功能,设置提示词,让AI在每次对话结束后,自动提炼要点,例如“用户关注的要点是什么?”、“用户情绪如何?”、“是否需要人工跟进?”等。完成所有配置后,点击“发布”,即可选择将该服务应用于“语音”或“文字”渠道,一个完整的智能对话场景便搭建成功并正式上线。

打开网易新闻 查看精彩图片

现场被问到“如果客户表述模糊,系统如何精准判断”,张元分析说:“以前,我们用小模型做智能客服,依赖关键字去匹配;现在,大模型有点像人脑,能根据上下文去思考和判断,把一个模糊的问题定位到比较精准的意图上。”

第四刀:通“经脉”——与企业系统无缝集成。

一个智能客服,如果不能和公司的CRM、订单系统打通,那就是一个信息孤岛,价值将大打折扣。所以,如何通过API将「通义点金」的智能对话能力与企业的现有系统无缝集成,是实现商业价值的关键一步。

整个集成过程的核心,是通过调用通义点金提供的两个核心API来完成的:「CreateDialog(创建外呼会话)」接口和「RealTimeDialog(实时会话)」接口。这套流程将外部系统、对话参数、意图识别和语音交互串联起来,形成了一个交互闭环。

打开网易新闻 查看精彩图片

现场演示了两个核心API的调用过程:

1、CreateDialog (创建外呼会话),这个接口是每一通智能客服的“起点”。在电话拨通前,企业系统可以先从自身的客户管理系统(CRM)里捞出客户的画像信息(比如姓名、会员等级、历史订单、可用优惠券等),然后,通过调用CreateDialog接口,将这些个性化的参数,连同指定的场景码、意图库ID等信息,一并传递给通义点金,此接口调用成功后,会返回两个关键信息:一个是根据预设模板生成的个性化“开场白”,另一个是这通对话的唯一凭证Session ID。这样,智能客服一开口就能精准说出:“张先生您好,我们留意到您的账户里有一张免息券即将到期……”——真正实现了千人千面的个性化沟通。

2、RealTimeDialog (实时会话)。当开场白播报完毕,通话就进入了实时交互阶段。语音识别(ASR)服务会将客户的语音实时转写成文本,然后连同上一步获取的Session ID一起,通过此接口发送给「通义点金」这个“大脑”。“大脑”接收到文本后,会立即进行意图识别,并从意图库中匹配最合适的应答话术返回。这个过程在毫秒间完成,循环往复,构成了完整的对话流程。

此外,「智能打断」能力也在此环节实现。系统在通过TTS播报话术的同时,会持续监听用户线路的声音。一旦检测到用户开口,它会通过规则和模型判断这是否为一次有效的打断,而非背景噪音或无意义的叹词。如果判定为有效打断,系统会立即中断当前的话术播报,并对客户新的问话进行意图识别,然后迅速给出新的回复,整个过程流畅自然,极其拟人。

打开网易新闻 查看精彩图片

第五刀:再“进化”——通过模型微调从“能用”到“好用”。

当一套智能客服系统上岗后,也就正式进入了精细化运营,这里有一个高阶玩法:「模型微调」,目的很明确,让效果更好、成本更低。

我们通过两个实例来看看:

首先是「意图识别微调」。随着业务数据的积累,我们可以收集大量真实的“客户问题-标准意图”标注数据,利用这些高质量的自有数据对模型进行全参数微调训练,能够让模型更懂“金融业务黑话”和“用户表达习惯”。其结果是,意图识别的召回率和准确率提升了,同时,通过将模型从Qwen-Plus这样的大模型替换为微调后的小模型(如Qwen3-8b),响应时间甚至可以从600毫秒降低到100毫秒,效果不降反升(从93%提升至96%),实现了“又快又准”。

其次是「质检场景微调」。传统的智能客服质检,为了覆盖复杂的质检规则,往往需要搭建一个由多个大模型协作的复杂Agent链路。这种方式虽然效果不错(达到91%),但响应时间极长,通常需要20秒以上,因此只能用于通话结束后的“离线批量分析”。

而通过「模型蒸馏」技术,我们可以把这个复杂链路的运行日志,即大模型(如Qwen-Plus)的完整思考链,作为养料来训练一个更小、更专注的轻量化模型(如Qwen3-8B)。这个被教会了复杂逻辑的小模型,效果几乎无损(达到90%),但响应时间却能被压缩到惊人的200毫秒,这使得原本只能用于事后分析的「离线质检」,变成可以在通话中实时发现问题、实时提醒坐席的「实时质检」,其业务价值不可同日而语。

打开网易新闻 查看精彩图片

至此,我们似乎已经手搓了一个金融行业智能客服,但正如霍俊涛在直播结束前所说,这一切并非是为了打造一个完美的 “替代品”——新一代智能客服的核心价值,在于构建一个“人×AI×流程”协同增益的飞轮。

在这个飞轮中,AI负责处理海量的、重复性的工作,并将非结构化的对话,沉淀为结构化的数据资产。而人,则从繁重的执行中被解放出来,专注于处理更复杂、更需情感共鸣的场景,以及更重要的是,运营和优化AI这位“数字员工”

说到持续优化AI这位数字员工,就在2025年12月23日,阿里云为智能客服的“听说”能力再添新引擎——「通义百聆语音双子星」正式发布并同步开源!在“说”的能力上,Fun-CosyVoice3模型将首包延迟降低50%,让对话响应更快;在“听”的能力上,Fun-ASR模型不仅在噪声场景下准确率达到93%,还支持31种语言混说、方言口音乃至歌词说唱识别,并将首字延迟压缩至160毫秒。同时,Fun-CosyVoice3和Fun-ASR-Nano等轻量化模型的开源,也为企业提供了成本更低、部署更灵活的选择。

而为了帮助从业者持续站在潮头,阿里云《模力时刻》系列直播,将继续深挖更多核心业务场景。据预告,在2026年1月中下旬直播将带来「保险场景」专场,继续深入一线,分享可落地的实操技巧与避坑指南。