输入一句话，AI怎么"想"出60帧画面？

码上闲叙

2026-04-15 08:58 ·北京

去年Runway生成3秒视频要算4分钟，今年可灵已经能实时预览。压缩了240倍的背后，不是算力暴力堆叠，而是一套精密的"偷工减料"系统。

扩散模型：从噪声里"雕刻"画面

AI视频的核心叫扩散模型（Diffusion Model）。训练时，它先看数百万视频，然后逐步往画面里加噪声直到变成雪花屏——这个过程叫"前向扩散"。

生成时反过来：从纯噪声开始，模型一步步"去噪"，每步预测该擦掉哪些像素。就像雕塑家对着大理石块，每次敲掉不该存在的部分。

关键在"逐步"。一步到位会崩，但拆成50-1000个小步骤，画面就稳了。Sora用的可能是50步，快手可灵为了速度压到20步以内。

时间一致性：让猫在第1秒和第3秒是同一只猫

图片生成模型（如Midjourney）只操心单帧。视频模型必须解决"这只猫转身时，花纹不能突变"——这叫时间一致性（Temporal Consistency）。

解法是在扩散模型里塞入"时空注意力块"。简单说：模型生成第10帧时，会回头看第1、5、8帧的特征，确保物理规律连贯。OpenAI的Sora论文提到，他们用了一种"时空补丁"（Spacetime Patches）技术，把视频切成带时间维度的三维块来处理。

代价是显存爆炸。1080p视频30帧，像素量是单图的30倍。直接算会炸卡。

自动编码器：先压缩，再做梦

这就是自编码器（Autoencoder）登场的时刻。它分两阶段：

编码器把视频压进"潜空间"——一个低维的数学空间，保留语义但扔掉冗余像素。1080p可能压到原来的1/64。

扩散模型只在潜空间里折腾，省90%算力。最后解码器把潜空间还原成视频。

Stable Video Diffusion的编码器能把8帧视频压到1/8的时空维度。可灵、Pika都在这个架构上改，竞争的是压缩率和重建质量的平衡点。

为什么现在爆发？

2023年前，视频扩散模型卡在两个坑：一是Transformer架构在长视频上注意力计算量平方级增长；二是缺乏带文本标注的高质量视频数据。

DiT（Diffusion Transformer）架构解决了前者——用Transformer替换U-Net，把视频切成补丁并行处理。数据方面，Meta的Movie Gen用了数千万条带描述的短视频训练。

现在瓶颈在物理模拟。Sora能生成"咖啡倒进杯子"，但液体动力学经常穿模。下一代模型的战场，可能是把物理引擎融进扩散过程。

当生成成本降到低于拍摄成本，短视频平台的内容供给逻辑会不会彻底改写？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴