铉盈小廌谈技术Vol.3|语音识别技术在司法场景中的应用

铉盈科技

2022-05-27 09:06 ·江苏

语音识别技术

作为人机交流的第一步，最常用的就是语音转文字，即将我们说的话，转成一段文本。

Q:语音识别技术的原理是什么？

小廌：

声音是一种波。

①将声音进行分帧。（即把这一段波，分隔成很小很小的一段）

②提取MFCC特征。（即把每一帧波形变成一个多维向量）

这个过程叫做声学特征提取。

音素：单词的发音由音素构成。汉语中一般直接用全部声母和韵母作为音素集。

状态：比音素更细致的语音单位，通常把一个音素划分成3个状态。

单词=n*音素=n*(m*状态)

将多个状态合成音素，多个因素就组成一个单词；而状态是由上面提到的一帧一帧的音频识别出来的。

Q:语音识别技术在实现的过程中复杂吗？

小廌：

Step 1：建立声学模型。声学模型建立的过程需要录入大量原始用户声音，以从中提取特征建立声学模型数据库。

Step 2：建立语言模型。语言模型可以调整声学模型所得到的不合逻辑的字词，使识别结果变得正确通顺。

Step 3：语音识别。通过输入一段语音将它进行编码和特征提取。通过声学模型得到单个的汉字，根据语言模型机型处理，最终得到完整的一句话或单词。

Q:语音识别技术的重点是在于模型的建立吗？

小廌：

建立模型不仅需要大量的语音数据，而且还需要花费大量的训练时间，同时还会存在方言、口音等因素。所以看似简单的一个功能，其实背后有着相当复杂的技术手段。

Q:铉盈科技是如何将这个技术应用到司法场景中的呢？

小廌：

铉盈科技将语音识别技术应用到了在线笔录功能。无感识别各地方言，精准高效地实现转写服务，更是为老年人等书写不便的群体带来了便利。语音识别技术为司法服务参与人免去了手写繁琐、书写不清晰识别错误等问题，并深度应用于诉讼服务大厅的多个自助设备中。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴