腾讯申请语音合成模型训练专利，能够根据风格图像指导语音合成

金融界

2026-01-14 09:35 ·北京 ·金融界网站官方账号优质财经领域创作者

国家知识产权局信息显示，腾讯科技（深圳）有限公司和北京科技大学申请一项名为“语音合成模型的训练方法、语音合成方法、装置、设备、存储介质及计算机程序产品”的专利，公开号CN121306091A，申请日期为2024年7月。

专利摘要显示，本申请提供了一种语音合成模型的训练方法、语音合成方法、装置、设备、存储介质及计算机程序产品；方法包括：获取语音音频样本、语音文本样本，风格图像样本和原始图像样本；对风格图像样本进行特征提取处理，得到第一图像特征；对第一图像特征进行图像特征解耦处理，得到风格图像样本中的对象的第一生物特征；基于第一图像特征进行音频特征预测，得到风格图像样本中的对象的第一音频特征；基于第一生物特征、第一音频特征以及从原始图像和语音音频样本中提取的相应维度的特征，确定第一组合损失值；基于第一组合损失值更新语音合成模型的参数，得到第一语音合成模型。通过本申请，能够根据风格图像指导语音合成。

声明：市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

本文源自：市场资讯

作者：情报员

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴