今天给大家介绍一个新模型-Pippo

Pippo是Meta Reality Labs推出的图像到视频生成模型,能从单张照片生成1K分辨率的多视角高清人像视频。它接受全身或面部照片作为输入,并能很好地将原有照片与新生成的内容结合。

 Pippo:一张图生成多视角人像视频?
打开网易新闻 查看更多视频
Pippo:一张图生成多视角人像视频?

这个模型利用了一种名为多视角扩散变换器的先进技术,经过自我学习和细致的训练,能够快速掌握不同角度的变化,从而制作出既高质量又在3D效果上一致性很强的图像。

下面看几个示例:

演示效果

仅限面部:通过单张图像实现转变

左:从iPhone拍摄的照片中裁剪出面部;右:生成的环绕视频(36帧),分辨率为512x512。

左:从iPhone照片中裁剪出面部;右:生成的16帧短视频,分辨率为1024x1024。

全身:通过单张图像实现转变

左:用iPhone拍摄的全身照片;右:生成的16帧短视频,分辨率为1024x1024。

左:全身的照片;右:生成的14帧特写短视频,分辨率为512x512。

仅头部:通过单张图像实现转变

左:只包含头部的工作室照片;右:根据该照片生成的36帧环绕视频,分辨率为512x512。

全身:从单个视频生成多个视角的视频

  • 上面一行:实际拍摄的画面。

  • 下面一行左边(第1列):人在移动的单个视频片段,分辨率为512x512。

  • 下面一行右边(第2到第7列):使用Pippo根据每个视频帧生成的不同视角的视频。

注意:Pippo可以自动补全每个视频帧中缺失的部分(比如鞋子或脸),并提供多种不同的补全效果!

仅头部视频:从单个视频生成多个视角的视频

  • 上面一行:实际的画面。

  • 下面一行左边(第1列):人在512x512分辨率下讲话的单个视频片段。

  • 下面一行右边(第2到第7列):使用Pippo根据每个视频帧生成的不同视角的视频。

注意:Pippo可以自动补全视频帧中缺失的部分(比如脖子或衣服),并提供多种不同的补全效果!

全身和头部:空间瞄点可视化

  • 带有对应固定3D空间锚点的全身生成图像。

  • 带有对应固定3D空间锚点的仅头部生成图像。

方法与训练

以下是模型流程图,(左边)使用在工作室捕捉的数据来训练一个多视角的扩散模型(右边展示)。训练时,会用到一张完整的参考照片、从中裁剪出来的脸部图像,以及目标视角的相机和指示头部位置及朝向的2D投影空间锚点进行条件设置。需要注意的是,这个空间锚点只在训练模型时使用,在实际应用模型生成图像时,它会被固定在一个预设的位置上。

ControlMLP和注意力偏差

研究人员使用了一种特殊的扩散变换器(DiT),它通过一个叫做ControlMLP的轻量模块进行调节,ControlMLP模块用于在DiT中注入像Plücker射线和空间锚点这样的像素对齐条件。

另外,还解决了模型在处理不同数量元素时可能出现的注意力偏差问题。图中展示了不同数量的tokens下的熵(Y轴)与缩放因子增长(X轴)之间的关系,使用研究人员提出的修复方法可以让生成结果更加稳定和准确。

注意力偏差视觉效果:采用了先前工作的注意力偏置公式,并引入了一个增长因子超参数(γ),将参数设置在1.4到1.6的范围内,以实现最佳的视觉效果。

以上就是今天项目所分享的内容了,感兴趣的 可以前往GitHub一看,地址放在下方了哦~

GitHub地址:

https://github.com/facebookresearch/pippo

end

“肝”一把!万一成了呢,名利双收!

免费的VDB云资源来啦~

这打斗动画艺术成分很高啊