5张 H800 带来 20 FPS 高保真实时虚拟人生成|fps|gpu|算法|虚拟人生成|视频生成模型|速度

传统的扩散模型做视频生成时，速度慢、画面越生成越不稳定，因此始终难以真正用于实时的、连续的音频驱动虚拟人场景。阿里提出的Live Avatar框架把算法和系统一起设计，能让140 亿参数级别的大模型也可以做到高质量、实时、无限时长的虚拟人生成。核心技术之一是TPP 并行推理策略，通过把扩散模型的多个步骤分给多张 GPU 同时处理，从根本上突破了传统顺序计算的速度瓶颈，实现低延迟的流式生成。（链接在文章底部）

为了避免虚拟人在长时间生成中出现“崩脸”、颜色漂移等问题，Live Avatar 提出了RSFM 机制，通过不断使用参考图像做动态校准，让画面在长视频里始终保持一致。同时，还使用了自适应蒸馏技术，让大模型在流式输出时依旧保持高画质。最终系统只用5 张 H800 GPU就能跑到20 FPS 的实时速度。

Live Avatar 训练框架：(a)阶段 1：Diffusion Forcing 预训练，展示了块级噪声的设置方式以及所使用的注意力掩码。(b)阶段 2：Self-Forcing 训练，通过强制保持 KV 缓存与噪声潜变量之间的噪声等级一致性来完成蒸馏。

Timestep-forcing Pipeline Parallelism（TPP）在预热阶段将流水线填满后，所有 GPU 会在完全流水化阶段同时执行去噪操作，将原本顺序执行的扩散链转变为异步的空间流水线。例如，GPU2 始终执行 t2 → t1 的去噪步骤：它会复用本地的 KV 缓存（速度极快），并仅将处理后的 latent 发送给 GPU3（同样快速）。

Live Avatar 的实时与流式特性使其具备强大的交互能力：用户可以通过麦克风和摄像头与虚拟人进行自然的“面对面”对话，并获得实时视觉反馈，看到虚拟人即时作出的反应。将 Live Avatar 与Qwen3-Omni集成后，就能够构建一个真正意义上的全交互式对话体代理（dialogue agents）。

真人视频生成：

动画视频生成：

所提出的 TPP 推理策略虽然提升了 FPS，但并未降低TTFF（首次帧延迟），从而限制了交互响应性。此外，对 RSFM 的高度依赖可能在复杂场景下影响长时序的时间一致性。

https://huggingface.co/Quark-Vision/Live-Avatar

欢迎交流～，带你学习AI，了解AI

5张 H800 带来 20 FPS 高保真实时虚拟人生成

热搜

热门跟贴

热搜

热门跟贴

相关推荐

华为天才少年创业，全球首个虚实融合的实时交互视频模型来了

对话理想汽车CTO谢炎：真正认真对待软件的人，都应该自己造硬件

生存游戏大挑战，没有算法全凭运气

一个框架，重塑具身研发流程：Dexbotic走向具身PyTorch

上海诞生"新币王"5083万元成交 目前存世仅七枚

速度和节奏，到底哪个才是王道

007新作跑60帧，"007 FPS"的梗被官方怼回去了

73万份销量的复古FPS，营销成本都赚回来了？

姚来英已任中国烟草总公司总经理

备战《巫师3》DLC！DLSS 4.5多帧生成mod上线

男子理发付款，魔鬼算法把老板娘绕进去，最后竟然还赚钱了

女子快速路上发现1米多大蛇爬行

AI第一金主黄仁勋：日均花掉20亿

英伟达4天涨出一个“甲骨文”

算法“破笼”：打工人终于能从“永动机”上下来了

熬夜3天写完的文章，阅读量只有2：比写不出更崩溃的是这个

独立游戏人正在小红书"起号"，但没人知道算法在想什么

海外研选 | 大摩：2030年服务器CPU市场规模或达2830亿美元

巫师3十年老游戏帧数翻三倍，民间大神整出DLSS 4.5黑科技

打破常规 国内航线燃油附加费5月16日起再上调

上海诞生"新币王"5083万元成交目前存世仅七枚

打破常规国内航线燃油附加费5月16日起再上调