小哆智能科技申请基于时序解耦的数字人口型语音同步生成专利，提升口型与语音的同步精准度

金融界

2026-02-16 08:29 ·北京 ·金融界网站官方账号优质财经领域创作者

国家知识产权局信息显示，小哆智能科技（北京）有限公司申请一项名为“基于时序解耦的数字人口型语音同步生成方法及系统”的专利，公开号CN121531206A，申请日期为2026年1月。

专利摘要显示，本发明实施例提供一种基于时序解耦的数字人口型语音同步生成方法及系统，属于数字人技术领域；该方法包括对原始视频序列进行人脸检测与裁剪，得到标准人脸图像序列，对目标音频信号进行特征提取，得到深层音频特征序列；对每一帧进行遮罩处理，得到待驱动口型区域图像；构建为多通道输入张量；预训练的口型生成网络输出与目标音频信号同步的口型图像；将口型图像替换到原始视频序列的对应位置后，与目标音频信号结合，输出口型语音同步的数字人视频。本发明通过深层音频特征提取与音视频精准对齐，提升口型与语音的同步精准度，通过多通道输入建模时序依赖，让口型序列过渡平滑，通过自适应特征融合机制能自动适配不同音素、语速。

天眼查资料显示，小哆智能科技（北京）有限公司，成立于2017年，位于北京市，是一家以从事科技推广和应用服务业为主的企业。企业注册资本3000万人民币。通过天眼查大数据分析，小哆智能科技（北京）有限公司共对外投资了4家企业，参与招投标项目29次，财产线索方面有商标信息55条，专利信息68条，此外企业还拥有行政许可3个。

声明：市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

本文源自：市场资讯

作者：情报员

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴