视频生成卡在20秒就崩?NVIDIA Research刚放出一个新东西,把连贯时长直接拉到分钟级,而且不需要堆海量GPU。
这东西叫SANA-WM,是去年SANA模型的世界模型版本。SANA本身是个主打"省钱"的图像生成模型——用线性注意力(linear attention)和深度压缩自编码器,把推理成本砍到传统扩散Transformer的几分之一。现在这套效率哲学被搬进了时间维度。
打开网易新闻 查看精彩图片
世界模型和视频生成器有什么区别?简单说,前者是个"可交互的模拟器"。你给它一个初始画面,它能预测下一帧;给它一个动作指令,它能推演环境怎么变。这意味着机器人可以在虚拟世界里练手,自动驾驶可以跑千万公里仿真,游戏引擎可能不再需要预渲染。
打开网易新闻 查看精彩图片
2026年的世界模型赛道已经挤满玩家。Google DeepMind的Genie 3、NVIDIA自家的Cosmos、Decart的Mirage都在抢这个入口。SANA-WM的差异化打法很直接:别人追画质,它追时长和成本。官方演示和对比放在nvlabs.github.io/Sana/WM。
技术路线上,SANA-WM继承了三个核心设计:线性注意力替代二次方复杂度注意力、深度压缩自编码器降低显存压力、针对长序列的时间一致性优化。这些组合起来,目标是让单张消费级显卡也能跑分钟级连贯模拟。
打开网易新闻 查看精彩图片
如果这条路走通,2026年的训练范式可能会变。现在搞机器人或自动驾驶,要么烧钱买真实数据,要么租集群跑仿真。SANA-WM的潜台词是:小团队用本地硬件也能养出一个足够逼真的"虚拟训练场"。
热门跟贴