字节终于开源了！BindWeave一种实现主体一致性的视频生成统一框架|字节|新模型|视频生成

Diffusion Transformer（扩散变换器）在视频生成方面表现出色，能够生成细节丰富、画面连贯的高质量视频，但现有模型在“主体一致性”上仍有不足—也就是说，当视频中有多个角色或复杂的互动时，模型往往难以保持人物或物体在不同画面中的身份、动作和特征一致。为了解决这个问题，字节开源了 BindWeave，一个能够同时处理单一主体和多主体复杂场景的统一视频生成框架。（链接在文章底部）

BindWeave 的核心在于结合多模态大语言模型（MLLM）与扩散变换器（DiT）。MLLM 会对文字提示和参考图像进行深度理解，识别并区分不同的角色、属性和关系，然后将这些信息传递给扩散变换器，从而生成既符合文字描述又保持主体一致的视频。实验表明，BindWeave 在视频的一致性、自然度和文本匹配度上都超过了现有的开源与商用模型，成为 OpenS2V 基准测试上的领先方法。

01 技术原理

BindWeave框架如下：一个多模态大语言模型通过跨模态推理，将提示词（prompt）和可选的参考图像中的实体进行定位（grounding），并解析（disentangle）出它们的角色、属性和交互关系。

随后，生成的具备主体感知（subject-aware）的信号通过交叉注意力机制（cross-attention）和轻量级适配器（lightweight adapters）传递给扩散Transformer（Diffusion Transformer），从而引导视频生成过程，使其在身份一致性（identity-faithful）、关系一致性（relation-consistent）以及时间连贯性（temporally coherent）方面得到保证。

单人视频生成（Single-human-to-video）：给定一张人物参考照片（可以是面部或全身），BindWeave能够生成身份一致、由文本提示引导的视频，并在其中呈现出自然的姿态、表情和视角变化。

多人视频生成（Multi-human-to-video）：给定多张人物参考图像，BindWeave能够生成由文本提示驱动的多人视频，在视频中准确保留每个主体的身份特征，清晰展现他们之间的互动，并确保时间上的平滑一致性，不会出现身份混淆或错换的情况。

人-物视频生成（Human-entity-to-video）：给定多张人物和物体的参考图像，BindWeave能够在视频中同时保持每个角色和每个物体的身份一致性，实现与文本提示高度匹配且物理上合理的人物–物体交互，并在遮挡和视角变化的情况下仍然保持平滑的时间连贯性。

https://huggingface.co/ByteDance/BindWeave

字节终于开源了！BindWeave一种实现主体一致性的视频生成统一框架

热搜

热门跟贴

热搜

热门跟贴

相关推荐

不卷参数卷架构，这个开源模型把图像理解和生成统一了

无需训练，如何提升黑箱VLM？CARPRT用「类别感知」给出答案

LCA：DeepSeek 长文本加速神器90% KV 缓存缩减 + 2.5 倍推理提速

微信朋友圈悄悄更新了，你发现了吗？

火速吃瓜：Kimi K2.6设计能力超越Claude Design

VEGA-3D：释放视频生成模型中的隐式3D知识，重塑3D场景

照片字节大于30kb，宽高像素大于220*320怎么调

ADI宣布A²B 2.0现已全面投入量产

用过的毛线还能这样变直，要在锅盖穿出来，也不知道是什么原理！

辰至半导体、Elektrobit联合发布AutoNexKit高性能汽车网络开发套件：打造“芯片+软件”一体化解决方案，提升客户开发效率与响应速度

赵心童攻防兼备的六边形战力！技术全面没有短板，被晖哥高度赞赏

上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

NASA公布拍摄到的不可思议的图像，这该怎么解释？

问道V9预售21.99万元起，极狐重拾高端

10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

八岁小女孩和顶级狙击手比射击，技术连狙击手都自愧不如

韩国人吹嘘本国地图像猛虎，评论区翻车笑死人：感觉更像大青虫！

31省份去年常住人口数据公布

工作人员清理空调外机，下秒发生神奇一幕，这到底是什么原理！

超越VLA与世界模型,银河通用发布LDA,全谱系数据跑通Scaling Law