好消息! 好消息~ 欢迎科研团队供稿
免费分享学术 项目成果
动画近年来在影视行业中受到广泛关注。尽管先进的视频生成模型如 Sora、Kling 和 CogVideoX 在生成自然视频方面取得了成功,但在处理动画视频时仍显得力不从心。动画视频生成的评估同样面临巨大挑战,主要原因在于其独特的艺术风格、违反物理规律的表现以及夸张的动作特征。
bilibili提出了一个面向动画视频生成的综合系统—AniSora。它支持一键生成多种动漫风格的视频镜头,包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜(MAD)等!在角色一致性和动作连贯性方面表现出色,在动画视频生成任务中取得了当前最先进的成果。(链接在文章底部)
01 技术原理
AniSora是一个面向动画视频生成的综合框架,整合了高质量动画数据集、时空条件生成模型以及专门设计的动画视频评测基准集。数据处理流程从100万部多样化的长动画视频中构建出一个包含1000万个视频片段的数据集。视频生成模型采用时空条件模型,支持多种用户控制与交互方式,能够完成帧插值、局部引导等任务。
评测基准集包含948个风格多样、动作常见的2D与3D动画真值视频。还设计了一套标准化的提示词与引导条件集,并结合人工偏好评估和包含八项客观指标的定量评估体系,用于衡量生成视频的视觉效果与一致性。AniSora 在多个维度上超越了当前最先进模型,树立了动画视频生成的新标杆。
Masked Diffusion Transformer 是一个用于动画视频生成的先进框架,专为支持多种时空条件控制设计,具备高度的灵活性与精度。该系统通过 3D Causal VAE 编码动画的时空特征,生成引导特征序列 G,同时由重投影网络生成掩码序列 M,用于控制生成过程中的关键区域。结合噪声与提示词特征,这些信息共同输入至 Diffusion Transformer,实现动画内容的合成。
该框架利用 patchify、三维相对位置编码(3D-RoPE)和三维全局注意力等技术,有效捕捉复杂的时空依赖关系,支持关键帧插值、动作控制与中间帧扩展等功能。Masked Diffusion Transformer 在提升动画生成效率的同时,显著增强了创作自由度,为动画制作流程带来了更高的自动化水平与艺术表现能力。
02 演示效果
不同艺术风格的图像生成视频:
时间帧控制:
空间控制:
https://arxiv.org/html/2412.10255v2
https://github.com/bilibili/Index-anisora
https://huggingface.co/IndexTeam/Index-anisora欢迎交流~,带你学须AI,了解AI
热门跟贴