巨人移动申请基于多模态学习的全身视频语音联合生成模型专利，实现从单一文本与参考图像同时生成自然对齐的语音视频

金融界

2026-03-02 14:41 ·北京 ·金融界网站官方账号优质财经领域创作者

国家知识产权局信息显示，巨人移动技术有限公司申请一项名为“一种基于多模态学习的全身视频语音联合生成模型”的专利，公开号CN121583235A，申请日期为2025年11月。

专利摘要显示，本发明涉及一种基于多模态学习的全身视频语音联合生成模型，包括：数据集模块，包含公开的数据集以及自建多模态语料，内含海量多说话人视频、标注面部关键点、上半身姿态与音频；Text‑to‑Landmark模块，配置为基于输入文本生成面部运动轨迹与面部关键点序列；Landmark‑Guided Speech Generation模块，配置为基于面部关键点序列提取语音持续时长信号，引导语音生成的节奏与停顿；Motion‑ID ControlledVideo Generation模块，配置为融合身份特征与动作特征，实现保真且身份一致的全身说话视频生成，该模块采用基于Diffusion Transformer的扩散式生成主干，通过LoRA适配实现高效调优。本发明实现了从单一文本输入与参考图像出发，同时生成自然、连贯且时序对齐的语音与视频内容。

天眼查资料显示，巨人移动技术有限公司，成立于2017年，位于上海市，是一家以从事软件和信息技术服务业为主的企业。企业注册资本5000万人民币。通过天眼查大数据分析，巨人移动技术有限公司共对外投资了1家企业，专利信息71条，此外企业还拥有行政许可7个。

声明：市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

本文源自：市场资讯

作者：情报员

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴