金融界 2024 年 11 月 28 日消息,国家知识产权局信息显示,巨人移动技术有限公司申请一项名为“一种基于多任务学习的数字人语音识别方法”的专利,公开号 CN 119028319 A,申请日期为 2024 年 9 月。
专利摘要显示,本发明涉及一种基于多任务学习的数字人语音识别方法,包括以下步骤:S1:采集并标注多条数据;S2:采用多任务共享音频编码器的方式,将多种不同任务输入音频编码器内;S3:音频编码器提取出每条数据的每一帧的语音特征后,发送给各个不同的解码器处理,包括文本解码器、说话人解码器、方言解码器和情感解码器,各不同解码器输出对应处理结果;S4:进行多任务学习的训练,方式如下:依据各任务的权重,对各个任务的损失进行加权求和,得到总体的损失函数;S5:根据总体的损失函数完成多任务网络训练 S6 根据多任务网络推理得到识别结果。本发明可以准确、实时的识别出用户的语音文本内容,以及说话人、方言和情感等信息。
本文源自:金融界
作者:情报员
热门跟贴