视觉生成的隐藏天花板｜VTP：MiniMax海螺视频首次开源 · 技术解读|minimax|vtp|天花板|海螺|视觉

MiniMax 的视频向来很顶，但技术上一直是个黑盒

刚刚，海螺团队第一次自揭面纱，带来了首个开源项目：VTP
Visual Tokenizer Pre-training

VTP 这东西非常有趣：搞图像、视频生成的团队，或都能因此受益

先做个信息铺垫，现在主流的 AI 生图模型，底层都是两步走：

第一步，压缩
把一张图像压缩成一组数字，这组数字能代表这张图的核心信息

第二步，生成
AI 在这组数字的空间里做生成，生成完再还原成图像

其中，负责第一步的模块，就叫「分词器」，Tokenizer；负责第二步的，则是扩散模型Diffusion Model

论文中，发现一个反直觉的现象
分词器训练得越久，还原能力越强，生成效果反而越差
论文把这个困境叫做预训练缩放问题

进一步，论文中也发现了
让分词器学会「理解」，比学会「还原」更重要
论文管这叫理解力驱动生成

于是，对于分词器，就有了

理解力越强，压出的数字越有意义，扩散模型越容易学，生成效果越好

问题在哪

视觉分词器是怎么训练的？
传统做法，是让它学「重建」：把图像压缩成一组数字，再从这组数字还原回图像，还原得越接近原图越好

这个训练目标听起来很合理
压缩再还原，损失越小，说明这组数字保留的信息越完整

但论文做了一组实验，发现了问题

具体来说，就是，随着训练时间增加，模型产生了一些有趣的现象

重建能力持续变强
rFID（衡量还原质量，越小越好）从2.0降到0.5

生成能力持续变差
gFID（衡量生成质量，越小越好）从55涨到58

这就是论文定义的「预训练缩放问题」（Pre-training Scaling Problem）：你往视觉分词器里砸再多算力，也换不来更好的生成效果

对于做图像生成、视频生成的团队来说，这是个坏消息
论文数据显示，传统方法在总算力的1/10处就开始停滞了
之后再加算力，生成效果不升反降

为什么会这样

重建任务，让模型学错了东西
论文给出了这样的解释

当视觉分词器学习「还原像素」时，它会把注意力放在「底层信息」上：
边缘在哪、纹理是什么样、颜色的精确数值是多少
这些信息对于「还原」很重要
像素级的细节越准确，还原出来的图像越接近原图

但生成的时候，其实需要的不是这些
生成模型需要的是「高层语义」：
这张图里有什么东西、是什么场景、物体之间是什么关系、整体氛围是什么

在分词器被过度训练后，通过它的到的信息，就会更偏向于「底层信息」，而非「高层语义」
到了生成的时候，，很难从中「理解」图像应该是什么样的，效果自然变差

于是，从结果上，我们就看到了做得越好，效果越差
（像不像办公室里，让你加班改细节的老板）

可以看一下这个图，是论文的核心发现
对于传统自编码器，理解力和生成质量都卡在左下角，增加训练量也不动
对于 VTP（红色点），理解力越强，生成质量越好，持续往右上角走

综上：理解力才是驱动生成的关键因素

怎么解决

既然问题定位到了：分词器学偏了
那么，解决方案也很清晰：让分词器学全
一边学重建，一边学理解

VTP 正式这个思路
把三种训练目标合在一起，联合优化

其一、图文对比学习

在图文对比学习这一过程中，VTP 采用 CLIP 的训练方式

大致是这样给模型看大量的「图像 + 文字描述」配对数据，让图像压缩出来的数字表示和对应文字的数字表示靠近

比如，给一张狗的照片，压缩后的数字表示要和「一只金毛犬在草地上奔跑」这句话的数字表示相似

这样视觉分词器在压缩图像时，就会保留语义信息，知道这张图「是什么」

其二、感知空间结构

在感知空间结构中，VTP 采用 DINOv2 的训练方式，具体包括两类任务

第一类：
遮住图像的一部分，让模型预测被遮住的内容
这迫使模型理解图像的整体结构，而不是只记住局部像素

第二类
是对同一张图像做不同的裁剪和变换，让模型输出的表示保持一致

这样，模型就会被迫使着学习图像的本质特征，而不是被具体的像素值干扰

上面说了，要一边学重建，一边学理解
所以，传统的还原任务不能完全丢掉，但权重要调低

论文发现，把重建任务的损失权重设成0.1，对生成效果最好
（相比而言，理解任务的权重为1.0）

至此，把这三个目标联合训练，让视觉分词器同时具备三种能力
理解图像内容、感知空间结构、保留像素细节

额外的，VTP 用的是 Vision Transformer（ViT），不是传统的 CNN
实验数据显示，ViT 架构在同等配置下生成效果更好，计算量还更低

还有一个有关于 batch size 的细节
不同训练任务，对 batch size 的需求差异很大：

• 图文对比学习需要很大的 batch（16k）
• 自监督和重建任务用小 batch 就够（4k和2k）

对于 batch 这个问题，解决方法是这样：
每个 batch 里，全部样本用于图文对比学习，随机抽取一部分用于自监督和重建

效果如何

论文做了大量对比实验，从三个维度验证 VTP 的效果

维度一：理解、重建、生成的关系

先看下对比吧

纯重建训练：越练越差

随着训练时间增加：

• 重建能力持续变强：rFID从2.07降到0.51
• 生成能力反而变差：gFID从55.04涨到58.56

加入理解任务：三项全涨

用 CLIP + SSL + 重建联合训练后：

• 生成能力大幅提升：gFID降到27.8
• 理解能力同步提升：Linear Probe 达到74.9%
• 重建能力也没掉：rFID降到0.36

三种能力不冲突，可以同时提升

维度二：缩放特性

传统方法存在天花板，VTP 则打破了这个天花板

数据缩放

• 传统自编码器：训练数据从 10 万张扩到 1 亿张，gFID只从58.37降到56.71
• VTP：同样的数据扩展，gFID从47.59降到27.45

算力缩放

• 传统自编码器：算力增加到1/10处就停滞，之后gFID不降反升
• VTP：算力增加10倍，gFID提升65.8%，曲线仍在下降

参数缩放

• 传统自编码器：模型从20M参数扩到300M参数，gFID卡在57不动
• VTP：模型从 Small 到 Large，gFID从31.28降到26.12

这意味着：在视觉分词器阶段投入更多资源，终于能换来持续的回报了

维度三：与现有方法对比

VTP 与主流方案的效果对比

• VTP-L 在理解能力上超过了原版 CLIP（78.2%vs75.5%）
• 在重建能力上超过了 Stable Diffusion 的 VAE（rFID 0.36vs0.63）
• 在生成能力上超过了此前的改进方法 VA-VAE（gFID 2.81vs4.29）

收敛速度方面：

• 比 VA-VAE 快4.1 倍
• 比原版 LDM 快5.7 倍

收敛速度最后

MiniMax 的视频能力很能打，实属第一梯队，但技术上几乎不对外

而 MiniMax 这次的开源，选了视觉分词器这个方向，去尝试解决一个行业里很多人遇到过、但没人系统解释过的问题：
为什么分词器训得越好，生成效果反而没提升

过去一年的动作看，隔段时间，总能掏出点新东西

论文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代码
https://github.com/MiniMax-AI/VTP

视觉生成的隐藏天花板｜VTP：MiniMax海螺视频首次开源 · 技术解读

热搜

热门跟贴

热搜

热门跟贴

相关推荐

MiniMax稀宇科技薛子钊：AI大模型不是"砸钱游戏"，国内大模型被严重低估｜Alpha峰会

从「会表演」到「更会演」：KlingAvatar2.0让数字人拥有生动灵魂

生成不遗忘，「超长时序」世界模型！北大EgoLCD长短时记忆加持

AI对抗迁移性评估的「拨乱反正」：那些年效果虚高的攻防算法们

95后博士休学创业押注AI空间游戏，未上线先出圈吸粉百万

智源研究院王仲远：训练仍有巨大的Scaling空间 | MEET2026

SFT远不如RL？永不过时的剃刀原则打开终身学习大模型训练的大门

机器人统一神经系统面世，实现蛇般思考，让避障决策如同神经反射

AI“人才军备竞赛”开启，字节涨薪抢人锁定胜局

简直不要太离谱，这房子真的还能住吗？怎么会出现这种事

讽刺喜剧天花板，一个镇子里的人，竟然全都是骗子

胖头鱼等待潜水员给自己开海螺

13斤的大海螺，见识一下大厨怎么杀了做美食，还用砂轮机切割取肉

温情喜剧作品天花板！好久没有看到这么好笑而且温暖的作品！

网坛颜值天花板，卡林斯卡娅：美貌与争议齐飞

开球天花板，看看哪杆最精彩

代驾天花板，上车之前先来一段喷火助助兴

近期这类海鲜毒素超标，千万别再吃了

外企的“底线”竟成了内企的“天花板”

男子在天花板墙角贴了张正方体立体画，离远看感觉像会动一样