影视飓风视频中,让AI抛硬币,正反面概率居然不是50%？

侃故事的阿庆

2026-06-22 06:24 ·福建

这几天影视飓风有一个视频特别有意思。

简单来说，就是抛硬币，看哪边朝上。

但是用 AI 视频来抛。。

(用 AI 视频生成抛硬币的场景)

不在提示词里面写明哪一面最终朝上。

他们团队尝试了可能有几百次。

（就是用文生视频尝试了几百条视频）

后面发现硬币正反面（即数字面和人像面），

出现的概率是不一样的

视频中没说是用哪个模型，

但我猜是 Seedance 2.0

大概有 70% 的概率会得到正面，

即数字面。

但用最近新出的 Happy Horse 恰恰相反，

出现反面（花面）的概率有 75%，

太亏贼了。

本文从原理方面讲讲这是为啥：

训练数据集差异

这是最根本的原因，因为生成视频和生成文字，本质上都是让大模型来干的。

在互联网海量数据中，

抛硬币的视频里出现人头面的数量远超于数字面，所以抛硬币时出现这个概率也是很正常的。

如果模型 A 抓取了更多电影和硬币魔术的特写

（为了视觉表现力，90% 都展示硬币正面）

那么模型 A 的底层概率，

就会严重向正面倾斜。

而模型 B 如果抓取了更多，

日常 Vlog 或随机杂乱的物理实验，

偏见可能就会小一些。

CFG 等采样参数差异

为了让 AI 听懂你的话（比如抛硬币），

所有的扩散模型都会用一种技术，

叫做无分类器引导。

（Classifier-Free Guidance, 简称 CFG）

CFG 本质是把模型对提示词的注意力放大

但在放大的同时，

它也会呈指数级放大训练集里的统计偏见。

假设训练集里正面的基础概率是 p=0.55（微小偏见），当模型应用了权重为 w 的 CFG 后，最终生成的概率近似于：

如果一个模型为了画面更好看，

默认把 CFG 设置得特别高（比如 w=7），

那么原本 55% 的偏见，就会被强行放大到 92%

不同模型的默认 CFG 系数和采样步数不同，导致了概率畸变程度大相径庭。

文本编码器差异

你在对话框输入抛硬币，AI 其实是不认识字的。

它需要一个文本编码器（如 CLIP、T5 或自定义的 LLM）把文字变成高维向量。

有些编码器对“硬币”这个词的理解更侧重于“金属圆片上的图案”（导致模型倾向于画出清晰的正面图案）。

有些编码器更侧重于“抛物线的动作”，这就会导致它们在时空注意力上分配不同的权重，最终影响画面的演变逻辑。

RLHF 人类偏好对齐

模型训练好后，工程师会让人类测试员去给生成的视频打分，

就是最经典的RLHF，

基于人类反馈的强化学习。

如果测试员觉得，

“能看清硬币数字的视频”比“糊成一团的翻转视频”质量更高，

他们就会给前者的评分打高。

模型为了讨好人类（获得高奖励值），

就会在底层逻辑里强制修改输出分布，

进一步推高了“正面朝上”的概率。

以上的四个因素，

就是不同视频模型在相同提示词下，生成硬币抛出结果不同的原因。

可能还有一些因素没考虑到，欢迎交流。

然后视频的后面就是介绍世界模型了，

我之前有讲解世界模型原理的文章。

再也不用找实景场地了,世界模型直接生成可编辑立体空间

客观上来说，世界模型确实可以节省成本。

你可以简单理解为，

用 AI 3D 建模了一个世界，

之后要生成图片，直接截图。

生成视频的话就是把截出来的图生成视频，或者直接实机录像

不用再像传统那样先文生图/图生图了。

视频内容差不多就是讲这些吧。

在我看来，这些道理应该属于比较基础的，

但却能引起很大的反响。

说明其实AI普及的没有我们想得那么广泛。

甚至有很多人还没学会使用 AI。

我昨天就刷到一个视频，

一个大学生摆摊用 Dumate ，

帮路人完成杂活，十分火热。

不是顶尖的 AI 工具，照样能帮忙提效

这也是我做公众号的初心，

减小 AI 的在人们之间的信息差。

共勉。

晓风乾丨大四 Base北京 AI产品在职

想缩小科技带来的信息差分享很酷的AI玩法。

希望得到您的点赞转发爱心三连支持，

如果有更多想法或者问题欢迎交流~

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴