金融界2025年7月1日消息,国家知识产权局信息显示,谷歌有限责任公司申请一项名为“用于语音辨识的半监督训练方案”的专利,公开号CN120239884A,申请日期为2023年12月。
专利摘要显示,一种方法(400)包括接收从未标记的音频样本(303)中提取的声学帧(104)的序列,该未标记的音频样本与未与任何对应的转录配对的口头话语相对应。该方法还包括使用监督音频编码器(212)来生成对应的声学帧的目标高阶特征表示(214)。该方法还包括增强声学帧的序列,以及生成增强的声学帧的序列中的对应的增强的声学帧的预测的高阶特征表示(218)作为来自无监督音频编码器(216)的输出。该方法还包括基于目标高阶特征表示和预测的高阶特征表示来确定无监督损失项(330),以及基于该无监督损失项来更新语音辨识模型(200)的参数。
本文源自:金融界
作者:情报员
热门跟贴