国家智能语音创新中心技术攻关，人工智能语音多模态检测技术新探索|人工智能|人机交互|全双工|自动化|语料

原标题：国家智能语音创新中心技术攻关，人工智能语音多模态检测技术新探索

引言：

国家智能语音创新中心（以下简称“国创中心”）作为智能语音领域的国家制造业创新中心，既要围绕工业AI、多语种、AI芯片等关键共性技术，深入布局科研攻坚体系，向行业提供语音中试和测试认证服务；也要向前看，需要有预见性，甚至在“无人区”，及早部署技术研究，使我们在发展过程中得到最关键的技术支撑以及为行业应用开创研究先例。

一、本次技术攻关要解决什么问题？

随着以语音技术为代表的人工智能技术的不断成熟，人机交互已广泛应用在日常生活，智能家居、车载等智能交互产品五花八门，语音交互效果作为影响用户使用体验的关键因素，在终端用户的实际使用场景中普遍存在着体验不佳的问题。如何快速了解语音产品的优势和不足？不断提升产品的研发效力，并持续支撑产品效果优化，推动智能语音技术的不断发展，离不开高效、客观的语音交互效果评测。

与此同时，智能产品语音交互效果评测的技术门槛较高，不但需要在专业实验室中模拟出各种用户真实场景，更需要覆盖不同行业垂类的超大规模测试语料。传统的人工评测耗时耗力，无法满足这种场景复杂、数据量巨大的测试需求。采用自动化测试的手段是更好的解决方案，如何自动获取每一轮语音交互的测试结果？已经成为智能语音检测行业的主要技术难题之一。

行业中惯用的测试路径是从日志中获取交互结果，此种方式存在较大的局限性。首先，它需要Root角色开启待测品的开发者权限，但用户从市面上购买的智能语音产品，大部分并不支持开发者模式调试；其次，不同品牌、厂家生产的智能语音产品日志格式不统一，测试方案需要反复修改适配，通用性不足。

针对目前业界智能语音效果自动化测试解决方案的不足，国创中心迎难而上，组织了本次技术攻关，重点研究智能语音产品多模态获取语音交互结果的自动化测试技术。

二、本次技术攻关解决路径是什么？

智能音箱作为智能语音技术在智能家居领域的典型应用，近些年已经深入到人们的日常生活中，市场分析机构Omdia近期的一项研究报告指出，全球超过22.8%的家庭拥有至少一个智能音箱。语音交互作为智能音箱的主要功能，其能否被成功唤醒、响应速度如何、是否准确识别到用户想要表达的真实意图，成为影响用户使用体验的关键因素。

本次攻关聚焦智能音箱，研究智能音箱语音交互的黑盒自动化测试方法，包括基于全双工声音能量阈值检测技术、基于openCV的视频帧特征提取状态判断技术、基于ATX的终端结果异步获取技术、基于短时能量语音信号端点检测的响应速度计算技术。

（一）基于全双工声音能量阈值检测技术

市面上的大部分智能语音产品，成功唤醒后均有提示音反馈，智能音箱也是如此。

利用这种产品特点，开发了基于全双工声音能量阈值检测程序，实时采集并监测音频能量值，结合语音端点检测及双门限的能量阈值判断算法，自动获取智能音箱的唤醒结果。

（二）基于openCV的视频帧特征提取状态判断技术

智能语音产品被成功唤醒后除了有语音反馈外，大部分产品还会有灯光反馈。

利用这种产品特点，开发了基于openCV的视频帧特征提取状态判断程序，控制高帧率摄像头实时拍摄，并逐帧进行唤醒后亮灯图像匹配计算，达到自动获取智能音箱唤醒结果的目的。

（三）基于ATX的终端结果异步获取技术

市面上大部分智能语音产品均有配套的App软件，比如在手机上安装音箱App，就可以实现远程控制音箱、查看对话记录等操作。

基于此特点使用ATX+Uiautomator2就可以完成App上语音对话记录文本内容的实时获取，从而实现智能音箱识别准确率的自动化测试。

（四）基于短时能量语音信号端点检测的响应速度计算技术

利用智能语音产品唤醒和识别均有声音反馈的特点。

开发基于短时能量语音信号端点检测的响应速度计算程序，结合测试环境底噪与待测品反馈音能量值，设定合理阈值，使用外接麦克风实时采集声音并累加计算每个采样点的数值，除以采样个数，再将其做等比量化，并做溢出处理，即得到音频平均能量值。在一轮完整的测试循环中，计算第一次能量衰减至低于设定阈值时刻到超过阈值时刻的时间间隔即为响应时间。

三、本次技术攻关实战过程如何？

1、待测产品选择

本次评测选择了以下5款音箱：

某商城销量排名靠前的智能音箱

2、评测指标确定

本次评测主要关注音箱的唤醒成功率、识别准确率、交互成功率、响应速度等几个指标。

3、评测实施过程

测评环境

测评地点选择在可调混响实验室中，混响时间为0.6s,声源与待测音箱距离3米，环境噪声50dB(A)，语料经过规整后播放出来声压级为65dB(A)。

语料准备

目前已积累测试音频共计300多万条，发言人覆盖不同年龄段、快中慢语速、不同口音，识别音频内容覆盖闲聊、新闻、财经、百科问答等多个应用垂类。

测试步骤

测试平台配置测试任务，选择测试场景及语料，测试任务开始执行后，实验室测试执行机调度声卡并驱动人工头播放测试语料，同时自动获取测试结果并计算唤醒成功率、识别准确率、响应速度等指标，最终生成测试报告。

4、结果数据统计

四、本次技术攻关的意义是什么？

真正的黑盒测试方法只依赖于人与应用之间的设备级网络物理接口。在这个抽象级别进行测试能更好地模拟真实用户的体验，从而可以得到更接近真实场景的测试用例，对于研究人员来说，本次探索突破了开发者模式限制，把产品完全当成一个黑盒来处理。

此外，这种方法本质上是与设备无关的，所以在可能涉及数千个不同待测设备，甚至不同智能产品的情况下，可以带来相当大的好处，针对不同的智能语音产品可以快速适配，具有可复用性。本次探索中丰富和扩展了智能语音产品语音交互效果评测的方法，为行业构建了一套可复用的智能语音产品黑盒模式下自动化评测系统。

依托本中心自主研发的这套智能语音交互测试系统，既能轻松完成海量语料的全自动化测试，同时多模态的智能语音测试手段，完全不用担心授权开发者权限所带来的安全风险。对于智能语音相关产品的厂商，只需邮寄样品，即可得到一份客观、公正、专业的评测报告，满足性价比的基础上更加高效、安全、可靠。另一方面，我们也可以提供一站式智能语音测试解决方案，协助语音厂商建设覆盖智能语音全链路的自动化测试系统，助力智能语音产品更加快速地迭代升级，不断提升产品质量。

作为国家级制造业创新中心，既有目标导向，也要不断探索。探索的过程，本身具有不确定性、随机性，我们只有不断攻关、不断调整，才能真正成为中国智能语音产业关键共性技术供给者，实现语音与制造深度共融。