这几天影视飓风有一个视频特别有意思。

简单来说,就是抛硬币,看哪边朝上。

但是用 AI 视频来抛。。

(用 AI 视频生成抛硬币的场景)

打开网易新闻 查看精彩图片

不在提示词里面写明哪一面最终朝上。

打开网易新闻 查看精彩图片

他们团队尝试了可能有几百次。

(就是用文生视频尝试了几百条视频)

后面发现硬币正反面(即数字面和人像面),

出现的概率是不一样的

打开网易新闻 查看精彩图片

视频中没说是用哪个模型,

但我猜是 Seedance 2.0

大概有 70% 的概率会得到正面,

即数字面。

但用最近新出的 Happy Horse 恰恰相反,

打开网易新闻 查看精彩图片

出现反面(花面)的概率有 75%,

太亏贼了。

本文从原理方面讲讲这是为啥:

训练数据集差异

这是最根本的原因,因为生成视频和生成文字,本质上都是让大模型来干的。

在互联网海量数据中,

抛硬币的视频里出现人头面的数量远超于数字面,所以抛硬币时出现这个概率也是很正常的。

如果模型 A 抓取了更多电影和硬币魔术的特写

(为了视觉表现力,90% 都展示硬币正面)

那么模型 A 的底层概率,

就会严重向正面倾斜。

而模型 B 如果抓取了更多,

日常 Vlog 或随机杂乱的物理实验,

偏见可能就会小一些。

CFG 等采样参数差异
打开网易新闻 查看精彩图片
CFG 等采样参数差异

为了让 AI 听懂你的话(比如抛硬币),

所有的扩散模型都会用一种技术,

叫做无分类器引导。

(Classifier-Free Guidance, 简称 CFG)

CFG 本质是把模型对提示词的注意力放大

但在放大的同时,

它也会呈指数级放大训练集里的统计偏见。

假设训练集里正面的基础概率是 p=0.55(微小偏见),当模型应用了权重为 w 的 CFG 后,最终生成的概率近似于:

打开网易新闻 查看精彩图片

如果一个模型为了画面更好看,

默认把 CFG 设置得特别高(比如 w=7),

那么原本 55% 的偏见,就会被强行放大到 92%

不同模型的默认 CFG 系数和采样步数不同,导致了概率畸变程度大相径庭。

文本编码器差异
打开网易新闻 查看精彩图片
文本编码器差异

你在对话框输入抛硬币,AI 其实是不认识字的。

它需要一个文本编码器(如 CLIP、T5 或自定义的 LLM)把文字变成高维向量。

有些编码器对“硬币”这个词的理解更侧重于“金属圆片上的图案”(导致模型倾向于画出清晰的正面图案)。

有些编码器更侧重于“抛物线的动作”,这就会导致它们在时空注意力上分配不同的权重,最终影响画面的演变逻辑。

RLHF 人类偏好对齐
打开网易新闻 查看精彩图片
RLHF 人类偏好对齐

模型训练好后,工程师会让人类测试员去给生成的视频打分,

就是最经典的RLHF,

基于人类反馈的强化学习。

如果测试员觉得,

“能看清硬币数字的视频”比“糊成一团的翻转视频”质量更高,

他们就会给前者的评分打高。

模型为了讨好人类(获得高奖励值),

就会在底层逻辑里强制修改输出分布,

进一步推高了“正面朝上”的概率。

打开网易新闻 查看精彩图片

以上的四个因素,

就是不同视频模型在相同提示词下,生成硬币抛出结果不同的原因。

可能还有一些因素没考虑到,欢迎交流。

然后视频的后面就是介绍世界模型了,

我之前有讲解世界模型原理的文章。

再也不用找实景场地了,世界模型直接生成可编辑立体空间

打开网易新闻 查看精彩图片

客观上来说,世界模型确实可以节省成本。

你可以简单理解为,

用 AI 3D 建模了一个世界,

之后要生成图片,直接截图。

生成视频的话就是把截出来的图生成视频,或者直接实机录像

不用再像传统那样先文生图/图生图了。

打开网易新闻 查看精彩图片

视频内容差不多就是讲这些吧。

在我看来,这些道理应该属于比较基础的,

但却能引起很大的反响。

说明其实AI普及的没有我们想得那么广泛。

甚至有很多人还没学会使用 AI。

我昨天就刷到一个视频,

一个大学生摆摊用 Dumate ,

帮路人完成杂活,十分火热。

打开网易新闻 查看精彩图片

不是顶尖的 AI 工具,照样能帮忙提效

这也是我做公众号的初心,

减小 AI 的在人们之间的信息差。

共勉。

晓风乾丨 大四 Base北京 AI产品在职

想缩小科技带来的信息差 分享很酷的AI玩法。

希望得到您的点赞转发爱心三连支持,

如果有更多想法或者问题欢迎交流~