打开网易新闻 查看精彩图片
封面新闻记者 欧阳宏宇
记者2月3日获悉,近期一项由中国AI团队研发的实时数字人生成模型已完成开源。据介绍,该模型名为SoulX-FlashTalk,是首个能够实现0.87s亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B数字人模型。
在行业中,传统数字人生成方案大多面临画面生成时间长、延迟高、生成效果差、效果不稳定、保真度低等问题。
对此,据研究团队Soul App AI团队(Soul AI Lab)介绍,SoulX-FlashTalk在研发过程中,通过延迟感知时空适配,和自研的自纠正“双向蒸馏”两项技术,解决了生成中可能出现的人物面部不一致或显著画质下降等问题。在短视频评测中,实现了3.51的ASE和4.79的IQA刷新了视觉保真度记录,在长短视频任务中也维持了32FPS的高吞吐量。
该团队还表示,接下来,会聚焦语音对话合成、视觉交互等核心交互能力的提升,以持续推进开源工作为契机,为推动“ AI +社交”方向前沿能力建设贡献力量。
谈及应用前景,分析称,该模型开源后将有机会在多领域、行业实际落地,创造更多价值。例如,在电商领域打造7×24小时AI直播间,解决数字人直播长时间运行后常会出现的嘴型对不上或画质模糊的问题。
此外,在短视频制作、AI教育、多元互动场景NPC交互、AI客服等方向,模型也提供了高质量、可落地、可接入业务系统的解决方案。
业内人士表示,此次开源新模型,除了在速度、效果、延迟和保真度上表现出色,更重要的是,为行业提供了切实可应用的业务解决方案,推动大参数量实时生成式数字人迈入可具体商用落地阶段。
热门跟贴