NVIDIA开源分钟级世界模型，GPU集群不再是刚需

固件更新中

2026-05-17 00:55 ·北京

视频生成卡在20秒就崩？NVIDIA Research刚放出一个新东西，把连贯时长直接拉到分钟级，而且不需要堆海量GPU。

这东西叫SANA-WM，是去年SANA模型的世界模型版本。SANA本身是个主打"省钱"的图像生成模型——用线性注意力（linear attention）和深度压缩自编码器，把推理成本砍到传统扩散Transformer的几分之一。现在这套效率哲学被搬进了时间维度。

世界模型和视频生成器有什么区别？简单说，前者是个"可交互的模拟器"。你给它一个初始画面，它能预测下一帧；给它一个动作指令，它能推演环境怎么变。这意味着机器人可以在虚拟世界里练手，自动驾驶可以跑千万公里仿真，游戏引擎可能不再需要预渲染。

2026年的世界模型赛道已经挤满玩家。Google DeepMind的Genie 3、NVIDIA自家的Cosmos、Decart的Mirage都在抢这个入口。SANA-WM的差异化打法很直接：别人追画质，它追时长和成本。官方演示和对比放在nvlabs.github.io/Sana/WM。

技术路线上，SANA-WM继承了三个核心设计：线性注意力替代二次方复杂度注意力、深度压缩自编码器降低显存压力、针对长序列的时间一致性优化。这些组合起来，目标是让单张消费级显卡也能跑分钟级连贯模拟。

如果这条路走通，2026年的训练范式可能会变。现在搞机器人或自动驾驶，要么烧钱买真实数据，要么租集群跑仿真。SANA-WM的潜台词是：小团队用本地硬件也能养出一个足够逼真的"虚拟训练场"。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴