声纹识别算法盒子背景

所谓声纹,是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。

打开网易新闻 查看精彩图片

技术参数

Ø基于Pytorch实现的声纹识别模型:模型是一种基于深度学习的说话人识别系统,其结构中融入了通道注意力机制、信息传播和聚合操作。这个模型的关键组成部分包括多层帧级别的TDNN 层、一个统计池化层以及两层句子级别的全连接层,此外还配备了一层 softmax,损失函数为交叉熵。

Ø特征提取:预加重->分加窗->离散傅里叶变换->梅尔滤波器组->逆离散傅里叶变换 -->image

Ø模型训练集:>10000个训练样本

Ø声音类型:声音类型主要划分为五大类别,分别为生活噪声、施工噪声、工业噪声、交通噪声、自然噪声,其中包含打雷,刮风,敲击、虫鸣鸟叫等不少于50个声音子类别

Ø声纹识别准确率:≥85%

Ø识别响应速率:>3s

Ø调用方式:支持云端调用或者本地终端调用

Ø技术协议:支持HTTP协议

打开网易新闻 查看精彩图片

声纹库分类

一级分类:五大类,自然噪声、生活噪声、施工噪声、工业噪声、交通噪声,分类依据:HJ640标准、噪声污染防治报告、噪声环评、噪声法等;

二级分类:按照应用场景或声音共同特点区分;

三级分类:作为子站识别结果显示,对原始声音类型进行同类合并、优化。