2月3日消息,近日,Soul App AI团队(Soul AI Lab)宣布开源实时数字人生成模型 SoulX-FlashTalk。据介绍,该模型参数规模为14B,可实现0.87s 亚秒级首帧延时、32fps 高帧率推理吞吐,并支持 超长视频稳定生成,面向“实时在线交互”场景落地。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

模型表现

官方披露,SoulX-FlashTalk重点解决实时视频交互中的两大难点——低延迟与长时稳定性。在推理侧,团队通过全栈加速引擎将首帧输出延迟压至亚秒级;在长视频生成中,则引入 自纠正双向蒸馏技术 与 多步回溯自纠正机制,模拟误差传播并进行实时修正,降低人物身份漂移与画质衰减风险。与此同时,模型 保留双向注意力机制(All-to-All),使每一帧生成可同时参考过去与隐含未来上下文,从而在超长直播中维持口型、面部细节与背景的一致性,减少画面“崩坏”。

除面部口型对齐外,SoulX-FlashTalk也进一步扩展到 全身动作交互。官方称,该模型支持音频驱动的全身动作生成,并强化手部细节表现,减少手部畸形与运动模糊,同时在动作幅度提升的情况下仍保持较高身份一致性(Subject-C达99.22)。

在训练策略上,团队采用两阶段方案,包括 延迟感知时空适配(Latency-Aware Spatiotemporal Adaptation) 与 自纠正双向蒸馏(Self-Correcting Bidirectional Distillation)。推理侧则结合混合序列并行(Hybrid Sequence Parallelism)、FlashAttention3、3D VAE并行化及torch.compile整链优化等手段,以提升实时推理效率。

打开网易新闻 查看精彩图片

训练流程

打开网易新闻 查看精彩图片

SoulX-FlashTalk推理架构

Soul AI Lab表示,SoulX-FlashTalk可应用于7×24小时AI直播、短视频制作、AI教育、互动NPC、AI客服等场景,尤其针对数字人直播长时间运行后常见的嘴型漂移、画质模糊等问题提供可落地的解决方案。此前,Soul曾开源语音合成模型 SoulX-Podcast,并在开源社区获得较高关注。

目前,项目页面、技术报告、源码及HuggingFace模型均已上线。(袁宁)

本文来自网易科技报道,更多资讯和深度内容,关注我们。