语音识别技术
作为人机交流的第一步,最常用的就是语音转文字,即将我们说的话,转成一段文本。
Q:语音识别技术的原理是什么?
小廌:
声音是一种波。
①将声音进行分帧。(即把这一段波,分隔成很小很小的一段)
②提取MFCC特征。(即把每一帧波形变成一个多维向量)
这个过程叫做声学特征提取。
音素:单词的发音由音素构成。汉语中一般直接用全部声母和韵母作为音素集。
状态:比音素更细致的语音单位,通常把一个音素划分成3个状态。
单词=n*音素=n*(m*状态)
将多个状态合成音素,多个因素就组成一个单词;而状态是由上面提到的一帧一帧的音频识别出来的。
Q:语音识别技术在实现的过程中复杂吗?
小廌:
Step 1:建立声学模型。声学模型建立的过程需要录入大量原始用户声音,以从中提取特征建立声学模型数据库。
Step 2:建立语言模型。语言模型可以调整声学模型所得到的不合逻辑的字词,使识别结果变得正确通顺。
Step 3:语音识别。通过输入一段语音将它进行编码和特征提取。通过声学模型得到单个的汉字,根据语言模型机型处理,最终得到完整的一句话或单词。
Q:语音识别技术的重点是在于模型的建立吗?
小廌:
建立模型不仅需要大量的语音数据,而且还需要花费大量的训练时间,同时还会存在方言、口音等因素。所以看似简单的一个功能,其实背后有着相当复杂的技术手段。
Q:铉盈科技是如何将这个技术应用到司法场景中的呢?
小廌:
铉盈科技将语音识别技术应用到了在线笔录功能。无感识别各地方言,精准高效地实现转写服务,更是为老年人等书写不便的群体带来了便利。语音识别技术为司法服务参与人免去了手写繁琐、书写不清晰识别错误等问题,并深度应用于诉讼服务大厅的多个自助设备中。
热门跟贴