视频虚拟试穿(Video Virtual Try-On,简称 VVT)旨在模拟服装在连续视频帧中的自然外观,捕捉其随人体动作变化的动态表现与交互。然而,现有的 VVT 方法在时空一致性和服装内容保留方面仍面临诸多挑战。首先,它们普遍采用基于 U-Net 的扩散模型,但该结构表现力有限,难以还原复杂细节。其次,现有方法在空间和时间注意力机制上采取分离建模的方式,这限制了对结构关系和跨帧动态一致性的有效捕捉。第三,服装细节的表达仍显不足,影响了整体合成结果在人物运动过程中的真实感与稳定性。

为解决上述问题,浙大提出了MagicTryOn,一个基于大规模视频扩散 Transformer 的视频虚拟试穿框架。利用 Wan2.1 中内置的全自注意力机制,实现了统一的时空建模。同时,设计了一种由粗到细的服装保留策略,逐步将服装信息注入去噪网络,从而增强对服装细节的控制能力与生成质量。此外,引入了一种掩码感知损失(mask-aware loss),引导网络在优化过程中更加关注服装区域。(链接在文章底部)

01 技术原理

MagicTryOn 的整体流程如下:输入包括人物视频、姿态表示、去衣遮罩(clothing-agnostic masks)以及目标服装图像。视频和姿态由 Wan Video Encoder编码为“去衣潜变量”(agnostic latents)和“姿态潜变量”(pose latents),遮罩则被调整尺寸后编码为“遮罩潜变量”(mask latents)。这些潜变量与随机噪声一起被输入到 DiT 主干网络中。

与此同时,服装图像被提取出多层次特征,包括文本、CLIP 特征、服装 token 和轮廓线 token。其中,服装 token通过序列拼接的方式提供粗粒度引导,而所有的 token 都被注入到 DiT 各个模块中,用于细粒度条件控制。经过 n 个去噪步骤后,DiT 主干网络生成试穿潜变量(try-on latents),再由 Wan Video Decoder 解码为最终的视频输出。

视频虚拟试穿任务不同于其他视频生成任务,它面临着一个独特挑战:在人体姿态和动作动态变化的过程中,既要保持服装图案细节和整体风格的一致性,又要确保视觉效果自然流畅、无感知上的违和感。因此,有效地从服装图像中提取不同类型的信息(如语义特征和结构特征),并在去噪过程中提供合理的引导,是提升生成质量的关键因素。

左图:服装细节提取的架构。利用 Qwen大语言模型生成详细的服装描述,同时使用线条估计器提取相应的轮廓线图。右图:细粒度的服装保留策略,包括语义引导交叉注意力(Semantic-Guided Cross-Attention)和特征引导交叉注意力(Feature-Guided Cross-Attention)。

02 演示效果

大幅运动场景下的试穿效果。在虚拟试穿任务中,大幅度身体动作(如跳舞)带来了更高的挑战,因为这不仅要求服装保持一致性,还需要良好的时空连贯性。为评估在此类场景中的表现,从 Pexels 网站中选择了两段跳舞视频进行测试。

玩偶场景下的试穿效果。

但该方法也存在一定的推理步骤的问题:目前的方法在推理过程中至少需要进行 10 个去噪步骤,才能生成高质量图像。

https://arxiv.org/pdf/2505.21325v2
https://github.com/vivoCameraResearch/Magic-TryOn/

欢迎交流~,带你学习AI,了解AI