国家知识产权局信息显示,巨人移动技术有限公司申请一项名为“一种基于多模态学习的全身视频语音联合生成模型”的专利,公开号CN121583235A,申请日期为2025年11月。
专利摘要显示,本发明涉及一种基于多模态学习的全身视频语音联合生成模型,包括:数据集模块,包含公开的数据集以及自建多模态语料,内含海量多说话人视频、标注面部关键点、上半身姿态与音频;Text‑to‑Landmark模块,配置为基于输入文本生成面部运动轨迹与面部关键点序列;Landmark‑Guided Speech Generation模块,配置为基于面部关键点序列提取语音持续时长信号,引导语音生成的节奏与停顿;Motion‑ID ControlledVideo Generation模块,配置为融合身份特征与动作特征,实现保真且身份一致的全身说话视频生成,该模块采用基于Diffusion Transformer的扩散式生成主干,通过LoRA适配实现高效调优。本发明实现了从单一文本输入与参考图像出发,同时生成自然、连贯且时序对齐的语音与视频内容。
天眼查资料显示,巨人移动技术有限公司,成立于2017年,位于上海市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本5000万人民币。通过天眼查大数据分析,巨人移动技术有限公司共对外投资了1家企业,专利信息71条,此外企业还拥有行政许可7个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
热门跟贴