金融界 2024 年 7 月 23 日消息,天眼查知识产权信息显示,科大讯飞股份有限公司申请一项名为“多说话人语音识别方法、装置、相关设备及计算机程序产品“,公开号 CN202410590383.6,申请日期为 2024 年 5 月。

专利摘要显示,本申请公开了一种多说话人语音识别方法、装置、相关设备及计算机程序产品,涉及语音识别领域,获取混合语音中每一说话人的说话时间戳信息以及配置的每一说话人的标识向量,生成每一说话人相对于混合语音的嵌入向量表示,融合混合语音的声学特征向量和每一说话人相对于混合语音的嵌入向量表示,得到融合向量表示,通过该融合向量表示可以包含说话人信息及说话人边界信息,基于融合向量表示执行多说话人语音识别任务,可以有效提升对混合语音的识别结果的准确度

本文源自:金融界

作者:情报员