金融界 2024 年 9 月 17 日消息,天眼查知识产权信息显示,恒玄科技(上海)股份有限公司申请一项名为“声场景分类模型生成方法、声场景分类方法、装置、存储介质及电子设备“,公开号 CN202410848719.4,申请日期为 2024 年 6 月。
专利摘要显示,本申请公开了一种声场景分类模型生成方法、声场景分类方法、装置、存储介质及电子设备,其中,该声场景分类模型生成方法包括从声场景分类数据集中随机选取源音频和目标音频;根据源语音和目标语音生成源梅尔频谱图和目标梅尔频谱图;根据目标梅尔频谱图生成随机掩码图,并获取随机掩码图的倒转随机掩码图;基于随机掩码图、倒转随机掩码、源梅尔频谱图和目标梅尔频谱图生成增强频谱图和标签;基于增强频谱图和标签对预设神经网络进行训练,生成声场景分类模型。
本文源自:金融界
作者:情报员
热门跟贴