传统的扩散模型做视频生成时,速度慢、画面越生成越不稳定,因此始终难以真正用于实时的、连续的音频驱动虚拟人场景。阿里提出的Live Avatar框架把算法和系统一起设计,能让140 亿参数级别的大模型也可以做到高质量、实时、无限时长的虚拟人生成。核心技术之一是TPP 并行推理策略,通过把扩散模型的多个步骤分给多张 GPU 同时处理,从根本上突破了传统顺序计算的速度瓶颈,实现低延迟的流式生成。(链接在文章底部)
为了避免虚拟人在长时间生成中出现“崩脸”、颜色漂移等问题,Live Avatar 提出了RSFM 机制,通过不断使用参考图像做动态校准,让画面在长视频里始终保持一致。同时,还使用了自适应蒸馏技术,让大模型在流式输出时依旧保持高画质。最终系统只用5 张 H800 GPU就能跑到20 FPS 的实时速度。
Live Avatar 训练框架:(a)阶段 1:Diffusion Forcing 预训练,展示了块级噪声的设置方式以及所使用的注意力掩码。(b)阶段 2:Self-Forcing 训练,通过强制保持 KV 缓存与噪声潜变量之间的噪声等级一致性来完成蒸馏。
Timestep-forcing Pipeline Parallelism(TPP)在预热阶段将流水线填满后,所有 GPU 会在完全流水化阶段同时执行去噪操作,将原本顺序执行的扩散链转变为异步的空间流水线。例如,GPU2 始终执行 t2 → t1 的去噪步骤:它会复用本地的 KV 缓存(速度极快),并仅将处理后的 latent 发送给 GPU3(同样快速)。
Live Avatar 的实时与流式特性使其具备强大的交互能力:用户可以通过麦克风和摄像头与虚拟人进行自然的“面对面”对话,并获得实时视觉反馈,看到虚拟人即时作出的反应。将 Live Avatar 与Qwen3-Omni集成后,就能够构建一个真正意义上的全交互式对话体代理(dialogue agents)。
真人视频生成:
动画视频生成:
所提出的 TPP 推理策略虽然提升了 FPS,但并未降低TTFF(首次帧延迟),从而限制了交互响应性。此外,对 RSFM 的高度依赖可能在复杂场景下影响长时序的时间一致性。
https://huggingface.co/Quark-Vision/Live-Avatar欢迎交流~,带你学习AI,了解AI
热门跟贴