写在前面
语音交互让驾乘体验更智能、更安全、更便捷,是智能汽车不可或缺的部分。本文基于场景和体验,从统计学角度,提出一套通用化的语音交互测评方案,并应用于蔚小理三款典型的车载语音交互产品,通过1500多条语料素材和数据统计图表,从用户层面评价代表性车型的语音交互效果。
特别感谢亿欧汽车提供的车辆资源支持。
语音交互已经成为智能汽车的标配,不仅能直观地让用户感受到汽车的智能化与科技化,而且能提供安全便捷和情感化的驾乘体验。进入大模型时代,车载语音交互更是以其人机对话的特点,首当其冲地成为AI大模型广泛应用的领域,市场上不断出现新的大模型,实现越来越先进和智能的语音交互效果。
那么,从用户日常用车的角度,应该如何测评语音交互的效果?需要关注哪些应用场景和关键指标?市场上前沿的语音交互产品表现如何?本文将对这些问题作出解答。
测评范围
语音交互通过车载语音系统实现,通常分为车端与云端两大模块。其中,车端模块包括音频处理、本地自动语音识别(Automatic Speech Recognition,ASR)、本地自然语音理解(Natural Language Understanding,NLU)、本地语音合成(Text To Speech,TTS)、语音中枢控制、本地仲裁、唤醒词和本地对话系统(Dialog System,DS)等;云端功能模块主要包括在线ASR、在线NLU、在线对话以及其他推送功能等。
从用户的角度,车载语音的各模块和系统是需要了解的,但更应该关注的是智能语音产品与用户的互动和反馈。根据语音交互应用的场景和呈现的效果,可以从以下基本场景、特殊场景和语音搜索等三个维度展开测评,覆盖语音交互的完整范围。
语音交互的基本场景是用户通过语音,与车载智能娱乐系统进行交互或控制,实现娱乐和车控等多种功能,主要涉及座舱域和车身域,包括导航、车身控制、导航、多媒体等。
特殊场景是指非常规的语音输入场景,非常考验车载语音系统的识别和理解能力。特殊语音场景中,车载语音系统能支持的功能主要有One-Shot(唤醒词后不等系统响应,直接说指令)、热词(免唤醒词)、打断、纠错、所见即可说(根据屏幕显示的Text,直接说出内容)、连续指令识别等。
语音搜索是用户通过语音发出搜索指令,系统呈现对应结果的场景。语音搜索的结果通常来自于系统自带的云端信息,常见的功能有笑话、百科、日常对话、天气、股票、航班、新闻、酒店、餐厅查询等。
基于以上三大类场景,可以测评语音交互所覆盖的功能完整度,并且可以通过关键的指标参数,评价车载语音系统的性能表现。语音交互的主要性能参数有字准确率、识别成功率、唤醒率、误唤醒率、响应速度、语音合成(TTS)质量等。其中,语音合成质量是主观体验的指标,可以采用MOS(Mean Opinion Score,平均得分意见)测评法进行评价。
测评方案
根据语音交互的测评范围,结合用户的用车场景和需求,可以制定出一套基于用户体验的、系统全面的、具有统计学意义的语音交互测评方案,分别从功能和性能层面,综合评价车载语音系统的效果。
网络环境
由于车载语音系统分为车端和云端两个模块,因此可以在无网环境和有网环境中,分别测评车端模块和车端+云端模块的表现。
其中无网环境指车辆断开网络连接的环境,测评对象主要是本地的ASR/NLU/TTS/DS系统;有网环境是指用户正常用车的环境,测评对象是在云端ASR/NLU加持下的语音交互整体系统。
语料录制
“语料”是语言学中的重要概念,指用于语言分析、处理、学习或自然语言处理(NLP)的大量文本或语言数据的集合,可以是书面文本或口头语言。对于车载语音交互来说,语料主要是用户口头表达的各类指令语言。
为了保证测评结果的通用化和可复现,并降低由于个人偶尔因素导致的测评结果不准确,通常需要将语料录制下来,形成标准化的、可重复播放的语料库。语料录制要充分考虑到用户的差异性,尽可能全面地覆盖到不同的口音、年龄、性别和语速。
推荐的语料录制标准是:测试语音文件的录制格式为.wav;纯净测试语音的录制应保证44.1kHz的采样频率和16bit的量化间隔;发音人和麦克风间应保持距离超过15cm,以避免风噪的影响;确保波形采样范围为±5000~±10000smpl;录制过程至少应包括录音、标注和确认三个步骤,以保证录制结果准确性。
功能测评
语音交互的功能测评,主要是测评用户可以通过语音交互,实现哪些功能,也就是功能的完整性。根据测评范围中提到的不同场景,分别针对各类场景的常见功能,录制详细的语料素材并逐一播放,记录语音交互系统对各条指令的响应和执行情况。对于某项功能的语料,如果系统能够响应并且正确响应,说明系统能够通过该语料,实现对应的功能。
为了让测评结果更全面,并避免由于语料的片面性导致测评结果不准确,从统计学角度出发,每项功能均通过50~100条语料来测评(如果功能简单,语料有限,则重复播放,至少保证50条语料),语料总数为1553条。功能测评的内容和典型语料详见表1。
表1 语音交互的功能测评内容与方法
场景
功能
典型语料示例
基本场景
导航
· 我要去东方绿舟
· 避开拥堵的路线
· 添加途经点,机场高架
· 多久能到
· 结束导航
车身控制
· 打开空调
· 打开副驾的车窗
· 改变氛围灯的颜色
· 调节座椅靠背
· 打开车窗
电话
· 打电话给XXX
· 再次拨打
· 拒绝
多媒体
· 我要听周杰伦的歌
· 我想听成都
· 调大音量
· 播放视频
· 颜心记
特殊场景
One-Shot
· 你好[唤醒词],打开空调
· 你好[唤醒词],播放音乐
· 你好[唤醒词],现在几点了
· 你好[唤醒词],导航到最近的充电站
· 你好[唤醒词],我要泊车
热词
· 上一首
· 下一首
· 换一首
打断
· XXX是谁,(打断)关闭车窗
· 导航去东方明珠,(打断)打开空调
· 呼叫10086,(打断)播放音乐
纠错
· 导航到东方明珠,不对,导航到西湖
· 关闭空调,不对,把温度调到20度
· 我想听刘德华的歌,不,是五月天的歌
所见即可说
· 门窗
· 驾驶
· 座椅
· 灯光
· 舒适
连续指令识别
· 打开空调播放音乐现在几点了
· 打开空调播放音乐现在几点了把温度调到18度
· 导航到最近的充电站导航最近的餐厅我有点困了
语音搜索
笑话
· 讲个笑话
· 讲个关于猴子的笑话
· 讲个冷笑话
百科
· 常见的颜色有哪些
· 恐龙有多少种
· 中国有多少个省份
日常对话
· 早上好
· 你叫什么名字
· 你在干什么
天气
· 今天会下雨吗
· 今天是晴天吗
· 今天天气怎么样
股票
· 今天股市怎么样
· 看看哪支股票涨停了
· 有推荐的股票吗
航班
· 帮我查询航班JD5907在哪儿起飞
· 查一下最早去北京的飞机
· 我想坐东航今天去广州的飞机
新闻
· 今天有什么新闻吗
· 帮我看看国内的新闻
· 科技行业有什么新闻
酒店查询
· 最近的酒店在哪
· 帮我找个1000左右的酒店
· 杭州有几个希尔顿酒店
餐厅查询
· 帮我找一个米其林餐厅
· 附近有老乡鸡吗
· 有推荐的烧烤店吗
性能测评
性能测评是通过语音交互的性能评价指标,根据车载语音系统对各条语料的具体响应表现,综合分析语音交互的效果。语音交互的性能测评应该是主观判断与客观数据相结合的,既有定性的体验式评价,也有定量的参数化分析。
语音交互的性能评价指标应该能够覆盖ASR、NLU、TTS、DS等车载语音系统的关键功能,并能直接体现语音交互的用户体验效果。常用的语音交互性能指标如下:
(1)字准确率
语音交互的字准确率,也称为字正确率(Word Correct,W.Corr),是指车载语音系统输出的文本中,正确识别的字数占总识别字数的比例,直接反映统对语音内容的理解能力和转换精度。例如,如果用户说的语料是“告诉我怎么去东方明珠”,系统识别成“告诉我怎么去东风明珠”,那么针对该语料的字准确率就是9/10=90%。
字准确率是可以定量测得的,也可以根据特定的标准,将量化的数据,分类成定性的评价,便于描述。
表2 字准确率的评价标准
字准确率
评价标准
≥90%
优秀
(70%,90%]
可接受
≤70%
不可接受
(2)识别成功率
语音交互的识别成功率指的是系统在所有接收到的语音输入中,正确识别并理解的比例,表示系统正确识别并理解用户语音指令的准确程度。车载语音系统的识别成功率至关重要,因为用户需要快速、准确的系统响应来确保安全性和便捷性。
识别成功率的计算方法是:在R次语音识别任务中,如果识别成功的次数是SR,识别错误的次数是FR,则识别成功率=SR/R*100%,误识别率=FR/R*100%。其中,识别错误的情况包括识别成错误的结果、没有识别的结果、没有完成识别就退出、虽然识别到但没有响应等。例如,播放100条语料,其中95条被系统正确地识别并理解,可以正确地响应或执行语料的指令,那么识别成功率就是95%,误识别率就是5%。
与字准确率一样,识别成功率也可以按特定的标准来评价,其标准可以参考字准确率的标准,即表2。
语音交互的识别成功率不仅取决于系统的能力和技术水平,还与用户和环境因素有关,用户因素指不同用户的口音、语速、语调、发音清晰度等,环境因素主要指车内外的噪声以及车内空间的回声和混响。对于用户因素,可以在录制语料时,扩大样本的覆盖范围,将用户差异性的影响降到最低;对于环境因素,可以设定几种典型的测评环境(表3),在不同的环境中,考察语音交互的效果。
在表3所示的几种典型环境中,系统识别成功率“优秀”的标准是:环境1中不低于90%,环境2中不低于80%,环境3中不低于70%,环境4中不低于80%。
表3 典型的语音交互测评环境
序号
车辆行驶状态
车速
车窗
空调
参考环境噪声
1
静态
0
45~50db
2
城区动态
40~80 km/h
低档
50~65db
3
高速动态
80~120 km/h
中档
65~75db
4
城区动态
40~80 km/h
半开
65~75db
(3)响应时间
响应时间是从用户发出语音指令到系统开始作出发应之间的时间间隔,包括语音信号处理、语音识别、自然语言理解、意图解析和生成响应等完整过程。响应时间是车载语音系统响应速度的体现,反映了系统处理和响应用户指令的能力,能够直接影响用户体验。目前行业内车载语音系统的响应时间在1s~4s范围内。
通常在计算响应时间时,应该计算一系列相关联的语料测评结果,获得有统计学意义的平均响应时间的数据。如果只关注系统对某条或某几条语料的响应时间,则意义不大。
(4)唤醒率
唤醒率是指车载语音系统在用户发出唤醒词时,成功被唤醒的比例,高唤醒率表示系统能够高频有效地识别唤醒词并进入待命状态,准备接受用户的指令。通常,每款智能语音产品,都有自己特有的唤醒词,如小鹏的“你好小P”,理想的“理想同学”等。
唤醒率的计算方法是:如果用户尝试了W次唤醒,其中成功唤醒的次数是SW,那么唤醒率=SW/W*100%。
叠加背景音时的唤醒率测评结果更有意义,更能体现出系统能力的差异。在表3所示的测评环境中叠加低档背景音乐时,系统唤醒率通常应达到以下标准:环境1中不低于95%,环境2中不低于88%,环境3中不低于82%,环境4中不低于88%。
(5)误唤醒率
误唤醒率值车载语音系统在没有收到唤醒词的情况下,错误地进入待命状态的比例。误唤醒会打扰到用户,引发用户不满,甚至影响驾驶安全,因此需要控制在极低的水平。误唤醒率的计算方法是:如果在T小时内出现FW次误唤醒,则误唤醒率=FW/T次/小时。
通常来说,在车辆静止且长时间播放音频时,语音交互的误唤醒率应不超过0.2次/小时,否则视为容易误唤醒,用户体验差。
(6)语音合成质量
车载语音系统的语音合成(TTS)质量,也直接影响用户对语音交互的体验。TTS质量通常包括系统合成语音的自然度、清晰度、情感表达程度和音质等,都属于主观体验的内容,并且缺乏统一的标准。因此我们采用MOS即平均得分意见法,通过打分的形式,将定性的主观感受,转化成定量的数据。
MOS法是一种常用的主观质量评估方法,广泛应用于音频、视频和语音技术的评估中,通过让多个评估者对特定样本的质量进行评分,然后计算平均分值,得出总体的质量评估结果。
MOS评分可以采用5分制,具体如下:
· 5分—质量非常好,接近或等同于人类自然语言;
· 4分—质量好,可用于大多数应用场景;
· 3分—质量一般,可用于部分应用场景;
· 2分—质量差,存在明显的质量问题;
· 1分—质量非常差,几乎无法使用。
5分是音质的最高水平,在理解能力、准确性和自然流畅的发音方面表现出色;而1分是最低级别的语音质量,类似一台非常原始和机械的机器播放广播。
考虑到不同评估者对语音合成的理解和标准都不同,因此选取不同背景、不同领域、不同风格的多种评估者进行MOS测评,避免因评估者的个性化因素,导致测评结果不准确,最大程度地让测评结果更客观且普遍适用。
实测结果
基于上面建立的智能语音交互测评方案,分别选取智能化车型的典型代表即蔚来、小鹏、理想的三款车型,分别从功能和性能层面进行测评,在横向对比代表性车型的语音交互效果的同时,也验证本文所建立的测评方案的有效性和通用性。
由于成本、时间和人力等资源存在限制,综合平衡用户的各类用车场景占比与测评所需的资源,本次测评仅在有网环境中,测评三款车型的车端+云端的整体语音交互效果;同时,也仅考虑静态环境中的普通话场景。对于更多的用户场景,如断网、方言、高速等,后续有机会将继续展开。
车型配置
本次测评的对象是代表行业前沿水平的蔚小理的三款车型: 蔚来ES6 ( 参数 丨 图片 )、小鹏G9和 理想L9 ,详细车型配置和软件系统信息如表4所示。
表4 车型配置
序号
品牌
车型
车款
系统版本
座舱芯片
1
蔚来
ES6
2023款 75kWh
Banyan 2.6.0
高通8155
2
小鹏
G9
2022款650 Max
Xmart OS 5.1.6
高通8155
3
理想
L9
2023款 Pro
OTA 5.2.1
高通8295
测评工具
语音交互的测评工具主要包含语料录制设备、音频播放设备、噪声测量设备、视频录制设备、计时器等,另外还需要Python的自动化脚本,用于控制语料的自动化播放。
表5 语音交互的测评工具
序号
资源类型
资源详细信息
数量
1
录音设备
DJI MIC,用于录制测评所用的语料
1
2
播放设备
猫王无线音响或口播,用于播放测评语料
1
3
分贝仪
希玛AR844,用于测量环境噪声
1
4
视频录制设备
GoPro Hero 10,用于过程记录
1
5
计时器
卡西欧电子秒表,用于记录系统响应时间
1
6
自动化测试软件
Python,用于控制语料自动化播放
1
功能测评结果
根据测评方案中的语音交互应用场景和功能,逐一播放按测评方案所录制的语料,并记录三款车型语音系统的表现,包括对各条语料的识别、响应与执行的数据等。根据系统对语料的响应或执行结果,可以得出三款车型语音交互产品的功能完整性,详见表6。
表6 三款车型语音交互的功能完整性
场景
功能
蔚来ES6
小鹏G9
理想L9
基本场景
导航
Y
Y
Y
车身控制
Y
Y
Y
电话
Y
Y
Y
多媒体
Y
Y
Y
特殊场景
One-Shot
Y
Y
Y
热词
Y
Y
Y
打断
Y
Y
Y
纠错
Y
Y
Y
所见即可说
Y
Y
Y
连续指令识别
Y
Y
Y
语音搜索
笑话
Y
Y
Y
百科
Y
Y
Y
日常对话
Y
Y
Y
天气
Y
Y
Y
股票
Y
N
Y
航班
Y
N
Y
新闻
Y
Y
Y
酒店查询
Y
Y
Y
餐厅查询
Y
Y
Y
可实现的功能数
19
17
19
从表6可以看出,蔚来ES6和理想L9可以通过语音指令,实现常用的所有19项功能,而小鹏G9可以实现17项功能,语音搜索场景的股票和航班功能,则不能实现。
性能测评结果
记录三款车型的车载语音系统对各条语料的响应情况,并整理、计算,分别通过测评方案中的各项性能评价指标,得出三款车型的语音交互性能测评结果。
在计算语音交互的性能指标时,不仅可以计算车载语音系统的整体评价指标,还可以按不同的场景、功能,分别计算各场景和功能的评价指标。具体计算过程和结果如下:
(1)字准确率结果
三款车型语音交互的字准确率结果如图1所示。可以看出,三款车型的整体字准确率都超过95%,达到“优秀”的水平。
但如果提高要求,以98%作为基准,则三款车型在语音搜索场景中的字准确率都很高,达到98.5%以上;在基本场景和特殊场景中,蔚来ES6和理想L9的字准确率也在98%左右,但小鹏G9则表现欠缺,基本场景中的字准确率只有95.8%,特殊场景中只有93.8%。
图1 三款车型语音交互的字准确率
具体分析小鹏G9语音交互在基本场景和特殊场景中的表现,统计不同功能中的字准确率,可以发现在基本场景中,导航、车身控制和电话的字准确率偏低;在特殊场景中,纠错、所见即可说和连续指令识别的字准确率偏低。其他细分功能的字准确率则超过98%。
图2 小鹏G9语音基本场景的字准确率
图3 小鹏G9语音特殊场景的字准确率
(2)识别成功率结果
三款车型语音的整体识别成功率,都在80%~90%之间,处于“可接受”的水平。
其中基本场景中的表现较好,识别成功率超过90%;特殊场景中的表现明显不如人意,只有蔚来ES6刚刚达到70%“可接受”的水平,小鹏G9和理想L9都低于70%,“不可接受”;在语音搜索场景中,三款车型的表现差异较大,表现最好的蔚来ES6达到94%的识别成功率,而表现最差的小鹏G9,只有75.6%的识别成功率。
图4 三款车型语音交互的识别成功率
具体来看特殊场景和语音搜索中三款车型语音的表现。图5显示,在One-Shot、热词和打断功能中,三款车型的语音识别成功率都超过98%,表现非常好,减分项在于纠错、所见即可说和连续指令识别,小鹏的连续指令识别成功率甚至只有18.8%,大部分连续语音指令都无法全部完成。图6显示,小鹏G9在笑话、新闻和酒店查询功能中的识别准确率都偏低,并且股票和航班功能不可用,所以导致语音搜索的整体识别准确率偏低。
图5 三款车型语音特殊场景的识别成功率
图6 三款车型语音搜索的识别成功率
(3)响应时间结果
三款车型的整体平均语音响应时间在1.9s~2.3s之间,处于主流语音交互产品的前列,并且最短时间1.97s与最长时间2.26s之间,差别不超过0.3s,可以忽略不计。不过仍然认为蔚来ES6的表现最好。
分场景来看,三款车型在语音基本场景中的响应最快,都不超过2s;在语音搜索中的响应最慢,都在3s左右。这是因为基本场景中的指令简单且为本地系统的实时响应,所以最快;特殊场景中的指令较复杂,涉及到打断、纠错、连续指令等,所以响应时间比基本场景慢;而语音搜索涉及到语音系统的云端模块,需要等待云端响应,所以响应最慢。
图7 三款车型语音交互的响应时间
(4)唤醒率与误唤醒率结果
蔚来ES6的唤醒词为“Hi NOMI”,小鹏G9的唤醒词为“你好小P”,理想L9的唤醒词为“理想同学”。
每款车型的完整测评过程中,播放唤醒词共计1400次(语料共1553条,其中热词、所见即可说无需唤醒),其中小鹏G9和理想L9每次都能成功唤醒,唤醒率为100%,而蔚来ES6则出现了6次唤醒失败,唤醒率为99.6%。三款车型的唤醒率都超过了99%,达到“优秀”的水平。
在约517分钟的完整测评过程中,蔚来ES6和理想L9没有出现误唤醒,误唤醒率为0,而小鹏G9则出现了一次误唤醒,误唤醒率约0.12次/小时,低于0.2次/小时,不会导致用户体验减分。
表7 三款车型语音交互的唤醒与误唤醒
指标
蔚来ES6
小鹏G9
理想L9
唤醒率
99.6%
100%
100%
误唤醒率
0
0.12次/小时
0
(5)语音合成质量结果
我们寻找了100位参与者,让他们分别为三款车型的语音合成质量,按5分制评分。为了保证MOS评分结果的通用性和全面性,减少特定人群评分导致的片面程度,我们邀请的评分者覆盖了不同的职业、学历、性别和年龄。
图8 MOS评分者的情况
三款车型的语音合成质量MOS评分结果如图9~图11所示,可以看到分值集中在4~5分,根据计算结果,三款车型的TTS平均分值分别是:
蔚来ES6:4.11分
小鹏G9:3.98分
理想L9:3.99分
可见三款车型的语音合成质量,都在4分附近,处于“质量好,可用于大多数应用场景”,其中蔚来ES6的分值略高于其他两款车型,但差别不大。
图9 蔚来ES6的语音合成质量评分
图10 小鹏G9的语音合成质量评分
图11 理想L9的语音合成质量评分
测评结论
根据以上对三款车辆的详细测评的结果,可以得出结论:
功能层面,三款车型都可以通过语音交互,覆盖常见的用车场景。蔚来ES6和理想L9可以100%实现常用的功能,小鹏G9的股票和航班查询功能还需完善。
性能层面,三款车型语音交互的各项关键性能指标,存在一些差异,但差别不大,都达到让人满意的水平。其中,蔚来ES6的识别成功率最高,响应速度最快,并且语音合成质量评分最高,但存在极少数唤醒失败的情况;小鹏G9的字准确率和识别成功率有待提高,并且会非常偶发地出现误唤醒;理想L9的各项指标则比较均衡,在三款产品中没有明显的领先或落后。
表8 三款车型语音交互的整体性能
车型
字准确率
识别成功率
响应时间
唤醒率
误唤醒率
TTS质量
蔚来ES6
98.4%
85.2%
1.97s
99.6%
0
4.11
小鹏G9
95.9%
80.6%
2.20s
100%
0.12次/小时
3.98
理想L9
98.5%
82.1%
2.26s
100%
0
3.99
One More Thing
综合考虑三款车型的座舱芯片与语音交互测评结果,可以发现产品效果与配置,没有必然的联系:搭载8155芯片的蔚来ES6和小鹏G9所实现的语音交互性能,与搭载8295芯片的理想L9相比,基本上是同等水平,甚至有多个性能指标超过理想L9。
可见,智能汽车时代,硬件早已不是唯一。在提升硬件的同时,从用户的角度去提升软件水平,软硬同步,才能明显提升产品竞争力,拉开差距,让硬件的升级达到预期的效果。
结语
本文从用户体验和用车场景出发,综合考虑客观参数和主观体验,基于大量语料,分别从功能和性能层面,深度测评蔚小理的三款车型语音交互的效果。由于难以避免的主观性和偶然性,本文的测评结果难免存在不准确之处,但相信90%以上的结论都是值得参考的。
未来,零号位将对智能汽车的各模块,开展更多的专业测评工作,敬请关注,也欢迎感兴趣的行业朋友与我们联系交流。
热门跟贴