去年Runway生成3秒视频要算4分钟,今年可灵已经能实时预览。压缩了240倍的背后,不是算力暴力堆叠,而是一套精密的"偷工减料"系统。

扩散模型:从噪声里"雕刻"画面

打开网易新闻 查看精彩图片

AI视频的核心叫扩散模型(Diffusion Model)。训练时,它先看数百万视频,然后逐步往画面里加噪声直到变成雪花屏——这个过程叫"前向扩散"。

生成时反过来:从纯噪声开始,模型一步步"去噪",每步预测该擦掉哪些像素。就像雕塑家对着大理石块,每次敲掉不该存在的部分。

关键在"逐步"。一步到位会崩,但拆成50-1000个小步骤,画面就稳了。Sora用的可能是50步,快手可灵为了速度压到20步以内。

时间一致性:让猫在第1秒和第3秒是同一只猫

图片生成模型(如Midjourney)只操心单帧。视频模型必须解决"这只猫转身时,花纹不能突变"——这叫时间一致性(Temporal Consistency)。

解法是在扩散模型里塞入"时空注意力块"。简单说:模型生成第10帧时,会回头看第1、5、8帧的特征,确保物理规律连贯。OpenAI的Sora论文提到,他们用了一种"时空补丁"(Spacetime Patches)技术,把视频切成带时间维度的三维块来处理。

代价是显存爆炸。1080p视频30帧,像素量是单图的30倍。直接算会炸卡。

自动编码器:先压缩,再做梦

这就是自编码器(Autoencoder)登场的时刻。它分两阶段:

编码器把视频压进"潜空间"——一个低维的数学空间,保留语义但扔掉冗余像素。1080p可能压到原来的1/64。

扩散模型只在潜空间里折腾,省90%算力。最后解码器把潜空间还原成视频。

Stable Video Diffusion的编码器能把8帧视频压到1/8的时空维度。可灵、Pika都在这个架构上改,竞争的是压缩率和重建质量的平衡点。

为什么现在爆发?

2023年前,视频扩散模型卡在两个坑:一是Transformer架构在长视频上注意力计算量平方级增长;二是缺乏带文本标注的高质量视频数据。

DiT(Diffusion Transformer)架构解决了前者——用Transformer替换U-Net,把视频切成补丁并行处理。数据方面,Meta的Movie Gen用了数千万条带描述的短视频训练。

现在瓶颈在物理模拟。Sora能生成"咖啡倒进杯子",但液体动力学经常穿模。下一代模型的战场,可能是把物理引擎融进扩散过程。

当生成成本降到低于拍摄成本,短视频平台的内容供给逻辑会不会彻底改写?