金融界2024年10月29日消息,国家知识产权局信息显示,广州视源电子科技股份有限公司申请一项名为“发音音素序列生成方法、电子设备及存储介质”的专利,公开号 CN 118824227 A,申请日期为 2023 年 4 月。

专利摘要显示,本申请实施例涉及语音合成技术领域,公开了一种发音音素序列生成方法、电子设备及存储介质。所述方法包括:基于原始音素序列和所述原始音素序列对应的分词信息构建第一对齐网络;基于音频数据,在所述第一对齐网络中搜索最优音素路径,获得最优音素路径对应的第一音素序列,所述第一音素序列包括静音音素;提取所述静音音素的音素特征,并基于所述音素特征对所述静音音素的可靠性进行评估;去除所述第一音素序列中未通过可靠性评估的所述静音音素,获得目标音素序列及各目标音素的持续时长。本申请在训练语音合成模型前,对音素序列中的静音音素进行可靠性评估,如果未通过评估,则去除,使得重新生成的音素序列可以训练出更优质的语音合成模型。

本文源自:金融界

作者:情报员