近日,央视主持人朱广权和AI虚拟人手语主播的一条PK短视频受到了大家的广泛关注。画面中,朱广权语速惊人,而一旁的虚拟人手语主播也毫不示弱,按照朱广权的话同步即时进行手语翻译,最后成功完成了挑战。

为了能让虚拟人听得懂主持人在讲什么,百度方面利用了语音识别(ASR)模型帮助虚拟人主播准确识别语音,还能够准确识别方言、中文、英文等情况。

打开网易新闻 查看精彩图片

什么是ASR?

ASR是指自动语音识别技术,是一种将人的语音转换为文本的技术。其目标就是将人类的语言中的词汇内容转换为计算机可读的输入。

语音识别ASR过程

建立声学模型

第一步是建立声学模型。声学模型的主流系统大多采用隐马尔科夫模型进行建模。对于同一个词,由于每个人的发音、语调、语速等都各不相同,为了能让机器识别出更多的人,声学模型建立过程中需要录入大量的原始用户声音,提取出其中的特征进行处理,并建立声学模型数据库。在声学训练步骤当中估算出声学模型的参数;再通过循环训练和对齐相位。在这一步中大数据的重要性就体现出来了。

建立语言模型

第二步是建立语言模型。语言模型包括由识别语音命令构成的语法网络或者由统计方法构成的语言模型。根据语言的客观事实,进行语言抽象数学建模,这是一种对应关系。语言模型可以很好地调整声学模型所得到的不合逻辑的词,使得识别结果变得通顺且正确,这对于自然语音的信息处理也有着重要的意义。

语音识别

第三步是进行语音识别。前面两步都是需要预先做好的,最终形成的数据库将存储在设备本地或者云端,而这一步则是实时的语音识别过程。先将用户的语音输入进行编码和特征提取,再将提取到的特征拿到声学模型库中去匹配,得到单个的单词,然后再拿到语言模型库中去查询,就可以得到最匹配的词了。

打开网易新闻 查看精彩图片

数据标注对ASR的重要性

ASR的本质是一种模式识别系统,包括了特征提取、模式匹配、参考模式等三个基本单元。特征提取运用到属性分类的标注方法,首先要对输入的语音进行预处理,然后提取出语音的特征,在此基础上建立语音识别所需要用到的模板,再将计算机中原先存放的语音模板与输入的语音信号的特征进行比较,找出最佳的与输入语音相匹配的模板,根据此模板的定义,通过查表,就能得到计算机的最佳识别结果。这种最佳的结果与特征的选择、语音模型的好坏、模板是否准确都有着直接的关系,需要大量标注数据进行不断训练才能得到。

景联文科技为ASR提供数据支持

景联文科技采集了《200小时车载环境语音数据集》、《1000小时普通话采集语言数据集》、《200小时德语采集语言数据集》、《200个id20000段中文唤醒词数据集》等多个可直接用于算法研究的数据集,节约算法厂商的研发时间。

景联文科技作为专业的数据采集标注公司,现有库拥有约100T的自有版权语音数据集,包括各国人说英语的语音数据集、中文普通话数据集、各地方言数据集等,均获得采集人授权,可为语音识别算法优化提供帮助。景联文还拥有专业的语音采集录音室,拥有高度场景搭建能力,在全国内有近一万人的被采集人员储备,支持多语种、多方言、多环境的语音采集。自建有先进的数据标注平台与成熟的标注、审核、质检机制,支持语音工程包括语音切割、ASR语音转写、语音情绪判定、声纹识别标注等多类型数据标注。

景联文科技始终关注于智能驾驶、智能家居、公共安全、智慧城市、智慧医疗、智慧金融、智能教育、智能司法等人工智能场景下的各种需求,为AI技术提供底层技术支撑。

未来景联文科技会专注于高质量、场景化的AI数据服务,打造通用数据集、数据标平台&数据管理工具、定制化数据采集/数据标注的AI数据全生命周期的服务布局。

数据采集标注需求联系我们~

market@jinglianwen.com