金融界2024年11月11日消息,国家知识产权局信息显示,本相空间(珠海)科技有限公司申请一项名为“场景感知的视听语音增强方法、装置、介质及程序产品”的专利,公开号CN 118918913 A,申请日期为2024年10月。
专利摘要显示,本发明提供的一种场景感知的视听语音增强方法、装置、介质及程序产品,其中,该方法包括以下步骤:通过预训练的对比视听掩码自动编码器提取当前场景对应的视觉场景嵌入和场景感知音频嵌入;使用一维卷积层对经过短时傅里叶变换的嘈杂语音信号进行编码,得到声学频谱嵌入;将视觉场景嵌入、场景感知音频嵌入和声学频谱嵌入融合得到融合特征表示;通过ConMamba模块处理融合特征表示,得到扩展相位敏感掩码;基于扩展相位敏感掩码和嘈杂语音信号进行逆短时傅里叶变换,得到增强语音信号。本发明将视觉线索作为增强策略的组成部分,针对较大的视觉上下文范围通过ConMamba架构进行处理,提高语音增强的效果。
本文源自:金融界
作者:情报员
热门跟贴