要回答这个问题,我们需要从语音机器人的基础能力介绍起

1、语音机器人简介及挑战

语音机器人(电话机器人),主要包括两种形态:呼入,即由机器人来承接用户电话咨询业务;外呼,即由机器人主动发起电话,触达用户,从而完成语音对话。

不论呼入,还是外呼,核心都包括电话通信技术、语音识别技术、对话技术,从当前行业来说,由于电话通信技术比较成熟,语音机器人效果瓶颈主要在:语音识别技术、对话技术。要优化语音与对话的体验,核心主要包括两方面:一方面对用户的理解越来越准确,另一方面提供尽量顺畅的交互能力,最终达成好的交互体验和业务效果。

由于实际语音交互中,口语化表达、噪音干扰、短词短句等情况广泛存在,实际业务中对于用户声音转写为文本、很难达到一个比较好的效果。

打开网易新闻 查看精彩图片

2、语音机器人与用户交互模式

典型的语音机器人与用户交互,在用户声音输入后,通常包括几个处理流程:

ASR:Automatic Speech Recognition,自动语音识别技术,即将用户输入的声音信息转写成对应的文本

NLU:Natural Language Understanding,自然语言理解,可以简单理解为,解析文本中包含的意图/目的

DM:Dialog Management,对话管理,即基于NLU返回结果进行决策,确定机器人下一步行动,可能是回复某个答案、也可能是表示对用户问题的不理解,也可能需要对用户进行反问意图确认。

NLG:Natural Language Generation,自然语言生成,可以理解为,生成回复给用户的答案,需要注意的是,此时的答案还是文本形式。

TTS:Text To Speech,从文本到语音,即语音合成,把NLG生成的文本答案合成为语音答案,从而播放给用户。

由于整个对话的核心模块(NLU、DM、NLG)是完全基于文本操作的,所以丢失了一些语音模态的信息,如用户情绪化的语气就无法传递给模型,同时ASR也会给下游带来误差传播。

3、语音语义驱动让语音机器人更聪明

基于以上问题,阿里对于ASR和NLU,提出了语音特色的文本驱动对话。语音特色的文本驱动对话,本质是一个具有容错能力的模型,用户声音信息的理解,不在割裂为ASR和NLU两段,机器人可同时基于发音信息和语义信息来解决用户意思,在某些字有错误的情况下,由于模型同时包含了语音、语义信息,因而具有更高的容错能力。

基于语音语义驱动技术,阿里的机器人能更准确的理解用户的意思,成为更聪明的机器人。

文章来源:沃丰科技