Pippo：一张图生成多视角人像视频？

CG世界

2025-02-28 11:11 ·黑龙江 ·优质互联网领域创作者

今天给大家介绍一个新模型-Pippo

Pippo是Meta Reality Labs推出的图像到视频生成模型，能从单张照片生成1K分辨率的多视角高清人像视频。它接受全身或面部照片作为输入，并能很好地将原有照片与新生成的内容结合。

Pippo：一张图生成多视角人像视频？

这个模型利用了一种名为多视角扩散变换器的先进技术，经过自我学习和细致的训练，能够快速掌握不同角度的变化，从而制作出既高质量又在3D效果上一致性很强的图像。

下面看几个示例：

演示效果

仅限面部：通过单张图像实现转变

左：从iPhone拍摄的照片中裁剪出面部；右：生成的环绕视频（36帧），分辨率为512x512。

左：从iPhone照片中裁剪出面部；右：生成的16帧短视频，分辨率为1024x1024。

全身：通过单张图像实现转变

左：用iPhone拍摄的全身照片；右：生成的16帧短视频，分辨率为1024x1024。

左：全身的照片；右：生成的14帧特写短视频，分辨率为512x512。

仅头部：通过单张图像实现转变

左：只包含头部的工作室照片；右：根据该照片生成的36帧环绕视频，分辨率为512x512。

全身：从单个视频生成多个视角的视频

上面一行：实际拍摄的画面。
下面一行左边（第1列）：人在移动的单个视频片段，分辨率为512x512。
下面一行右边（第2到第7列）：使用Pippo根据每个视频帧生成的不同视角的视频。

注意：Pippo可以自动补全每个视频帧中缺失的部分（比如鞋子或脸），并提供多种不同的补全效果！

仅头部视频：从单个视频生成多个视角的视频

上面一行：实际的画面。
下面一行左边（第1列）：人在512x512分辨率下讲话的单个视频片段。
下面一行右边（第2到第7列）：使用Pippo根据每个视频帧生成的不同视角的视频。

注意：Pippo可以自动补全视频帧中缺失的部分（比如脖子或衣服），并提供多种不同的补全效果！

全身和头部：空间瞄点可视化

带有对应固定3D空间锚点的全身生成图像。

带有对应固定3D空间锚点的仅头部生成图像。

方法与训练

以下是模型流程图，（左边）使用在工作室捕捉的数据来训练一个多视角的扩散模型（右边展示）。训练时，会用到一张完整的参考照片、从中裁剪出来的脸部图像，以及目标视角的相机和指示头部位置及朝向的2D投影空间锚点进行条件设置。需要注意的是，这个空间锚点只在训练模型时使用，在实际应用模型生成图像时，它会被固定在一个预设的位置上。

ControlMLP和注意力偏差

研究人员使用了一种特殊的扩散变换器（DiT），它通过一个叫做ControlMLP的轻量模块进行调节，ControlMLP模块用于在DiT中注入像Plücker射线和空间锚点这样的像素对齐条件。

另外，还解决了模型在处理不同数量元素时可能出现的注意力偏差问题。图中展示了不同数量的tokens下的熵（Y轴）与缩放因子增长（X轴）之间的关系，使用研究人员提出的修复方法可以让生成结果更加稳定和准确。

注意力偏差视觉效果：采用了先前工作的注意力偏置公式，并引入了一个增长因子超参数（γ），将参数设置在1.4到1.6的范围内，以实现最佳的视觉效果。

以上就是今天项目所分享的内容了，感兴趣的可以前往GitHub一看，地址放在下方了哦~

GitHub地址：

https://github.com/facebookresearch/pippo

end

“肝”一把！万一成了呢，名利双收!

免费的VDB云资源来啦~

这打斗动画艺术成分很高啊

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴