绕开文生视频，腾讯推图生视频模型，需选择图片区域加提示词

AI先锋官

2024-03-19 05:44 ·北京

作者｜杨文

来源｜AI先锋官

‍‍‍‍‍‍‍‍

大洋彼岸的AI巨头们都卷疯了，一向慢慢悠悠的腾讯，这回终于有了动静！‍‍‍‍

近日，腾讯和清华大学、香港科技大学联合推出图生视频模型“Follow-Your-Click”。

与Runway、Pika等AI视频领域的“扛把子”相比，这个Follow-Your-Click究竟有何过人之处？‍‍

据介绍，Follow-Your-Click基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。

项目介绍

“Follow-Your-Click”是一个创新的图像到视频生成模型。

该模型允许用户通过简单的点击和简短的动作提示来生成局部图像动画，从而将静态图像转换为动态视频。

绕开文生视频，腾讯推图生视频模型，需选择图片区域加提示词

这种方式解决了现有图像到视频方法中的一些问题，例如通常只能移动整个场景而不是图像上的某一个区域，导致精准度和灵活性不足。

其功能包括：

1.局部动画生成：“Follow-Your-Click”框架可以通过用户的点击和简短动作提示生成局部图像动画。例如，让物体微笑、跳舞或飘动等。

2.多对象动画：除了能够控制单个对象的动画，这个框架还支持同时对多个对象进行动画处理，增加了动画的复杂性和丰富性。

3.用户友好的交互：通过简单的点击和短语提示，用户可以轻松地指定希望动画化的区域和动作类型，无需复杂的操作或详细描述。

4.高质量视频生成：模型采用了先进的技术策略，如第一帧遮罩策略和基于光流的运动幅度控制，以确保生成的视频具有高质量和真实感。

5.运动速度控制：模型还允许用户控制动画对象的运动速度，通过精确的控制来满足不同的动画需求。

效果演示

Follow-Your-Click支持多种动作表达，如头部调整、翅膀拍动、微笑、悲伤、起飞、漂移、跳舞、来回驾驶等。

该模型还与现有工具Animate-Anything、Dynamicrafter, I2VGen-XL，以及商业化产品Gen-2、Genmo、Pika等进行比较，效果如下：

当然，该模型也并非完美，项目团队在官网上自曝弱点，例如在生成复杂和大幅度人体动作方面的不足，这主要是由于动作的复杂性和相关训练样本不足所致。‍

链接直达

项目主页：

https://follow-your-click.github.io/

论文链接：

https://arxiv.org/pdf/2403.08268.pdf

GitHub地址：

https://github.com/mayuelala/FollowYourClick

技术原理

根据项目论文介绍，“Follow-Your-Click”模型的工作原理包括以下几个步骤：

1.用户交互:首先，用户通过点击图像上的特定位置来选择需要动画化的对象区域，然后用户提供一个简短的动作提示，如“摇动身体”或“微笑”，来指定所选区域应执行的动作。

2.图像分割:为了将用户的点击转换为可以用于动画的区域掩码，框架集成了SAM（Segment Anything）工具。SAM是一个可提示的图像分割工具，能够根据用户的点击生成高质量的对象掩码。

3.首帧掩模策略:为了提高视频生成质量，框架采用了首帧掩模策略。在训练过程中，输入图像的潜在表示（latent representation）会被随机遮罩一部分，以增强模型学习时间相关性的能力。这种方法显著提高了生成视频的质量。

4.运动增强模块:为了使模型能够更好地响应简短的动作提示，框架设计了一个运动增强模块。该模块通过一个新的交叉注意力层来增强模型对动作相关词汇的响应。在训练阶段，该模块使用短动作提示进行训练，而在推理阶段，这些提示被输入到运动增强模块和U-Net的交叉注意力模块中。

5.基于光流的运动幅度控制:传统的运动强度控制依赖于调整每秒帧数（FPS）。然而，这种方法不能精确控制单个对象的运动速度。为了准确学习运动速度，框架提出了一种基于光流的运动幅度控制方法。通过计算光流的平均幅度并将其投影到位置嵌入中，可以在所有帧中一致地应用运动强度。

6.视频生成:在推理阶段，用户点击的位置和简短的动作提示被用来生成动画视频模型结合了用户指定的区域掩码和动作提示，生成了一系列连贯的动画帧，同时保持了输入图像的其余部分静止。

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴