Diffusion Transformer(扩散变换器)在视频生成方面表现出色,能够生成细节丰富、画面连贯的高质量视频,但现有模型在“主体一致性”上仍有不足—也就是说,当视频中有多个角色或复杂的互动时,模型往往难以保持人物或物体在不同画面中的身份、动作和特征一致。为了解决这个问题,字节开源了 BindWeave,一个能够同时处理单一主体和多主体复杂场景的统一视频生成框架。(链接在文章底部)
BindWeave 的核心在于结合多模态大语言模型(MLLM)与扩散变换器(DiT)。MLLM 会对文字提示和参考图像进行深度理解,识别并区分不同的角色、属性和关系,然后将这些信息传递给扩散变换器,从而生成既符合文字描述又保持主体一致的视频。实验表明,BindWeave 在视频的一致性、自然度和文本匹配度上都超过了现有的开源与商用模型,成为 OpenS2V 基准测试上的领先方法。
01 技术原理
BindWeave框架如下:一个多模态大语言模型通过跨模态推理,将提示词(prompt)和可选的参考图像中的实体进行定位(grounding),并解析(disentangle)出它们的角色、属性和交互关系。
随后,生成的具备主体感知(subject-aware)的信号通过交叉注意力机制(cross-attention)和轻量级适配器(lightweight adapters)传递给扩散Transformer(Diffusion Transformer),从而引导视频生成过程,使其在身份一致性(identity-faithful)、关系一致性(relation-consistent)以及时间连贯性(temporally coherent)方面得到保证。
单人视频生成(Single-human-to-video):给定一张人物参考照片(可以是面部或全身),BindWeave能够生成身份一致、由文本提示引导的视频,并在其中呈现出自然的姿态、表情和视角变化。
多人视频生成(Multi-human-to-video):给定多张人物参考图像,BindWeave能够生成由文本提示驱动的多人视频,在视频中准确保留每个主体的身份特征,清晰展现他们之间的互动,并确保时间上的平滑一致性,不会出现身份混淆或错换的情况。
人-物视频生成(Human-entity-to-video):给定多张人物和物体的参考图像,BindWeave能够在视频中同时保持每个角色和每个物体的身份一致性,实现与文本提示高度匹配且物理上合理的人物–物体交互,并在遮挡和视角变化的情况下仍然保持平滑的时间连贯性。
https://huggingface.co/ByteDance/BindWeave
热门跟贴