MiniMax 的视频向来很顶,但技术上一直是个黑盒

刚刚,海螺团队第一次自揭面纱,带来了首个开源项目:VTP
Visual Tokenizer Pre-training

VTP 这东西非常有趣:搞图像、视频生成的团队,或都能因此受益

Tech Report
打开网易新闻 查看精彩图片
Tech Report

先做个信息铺垫,现在主流的 AI 生图模型,底层都是两步走:

第一步,压缩
把一张图像压缩成一组数字,这组数字能代表这张图的核心信息

第二步,生成
AI 在这组数字的空间里做生成,生成完再还原成图像

两阶段架构
打开网易新闻 查看精彩图片
两阶段架构

其中,负责第一步的模块,就叫「分词器」,Tokenizer;负责第二步的,则是扩散模型Diffusion Model

论文中,发现一个反直觉的现象
分词器训练得越久,还原能力越强,生成效果反而越差
论文把这个困境叫做预训练缩放问题

预训练缩放问题
打开网易新闻 查看精彩图片
预训练缩放问题

进一步,论文中也发现了
让分词器学会「理解」,比学会「还原」更重要
论文管这叫理解力驱动生成

于是,对于分词器,就有了

理解力越强,压出的数字越有意义,扩散模型越容易学,生成效果越好
问题在哪

视觉分词器是怎么训练的?
传统做法,是让它学「重建」:把图像压缩成一组数字,再从这组数字还原回图像,还原得越接近原图越好

这个训练目标听起来很合理
压缩再还原,损失越小,说明这组数字保留的信息越完整

但论文做了一组实验,发现了问题

训练越久,重建越好,生成越差
打开网易新闻 查看精彩图片
训练越久,重建越好,生成越差

具体来说,就是,随着训练时间增加,模型产生了一些有趣的现象

重建能力持续变强
rFID(衡量还原质量,越小越好)从2.0降到0.5

生成能力持续变差
gFID(衡量生成质量,越小越好)从55涨到58

这就是论文定义的「预训练缩放问题」(Pre-training Scaling Problem):你往视觉分词器里砸再多算力,也换不来更好的生成效果

持续投入,并不会带来显著结果
打开网易新闻 查看精彩图片
持续投入,并不会带来显著结果

对于做图像生成、视频生成的团队来说,这是个坏消息
论文数据显示,传统方法在总算力的1/10处就开始停滞了
之后再加算力,生成效果不升反降

为什么会这样

重建任务,让模型学错了东西
论文给出了这样的解释

当视觉分词器学习「还原像素」时,它会把注意力放在「底层信息」上:
边缘在哪纹理是什么样颜色的精确数值是多少
这些信息对于「还原」很重要
像素级的细节越准确,还原出来的图像越接近原图

底层信息(重建) vs 高层语义(生成)
打开网易新闻 查看精彩图片
底层信息(重建) vs 高层语义(生成)

但生成的时候,其实需要的不是这些
生成模型需要的是「高层语义」:
这张图里有什么东西是什么场景物体之间是什么关系整体氛围是什么

在分词器被过度训练后,通过它的到的信息,就会更偏向于「底层信息」,而非「高层语义
到了生成的时候,,很难从中「理解」图像应该是什么样的,效果自然变差

于是,从结果上,我们就看到了做得越好,效果越差
(像不像办公室里,让你加班改细节的老板)

理解力与生成质量的关系
打开网易新闻 查看精彩图片
理解力与生成质量的关系

可以看一下这个图,是论文的核心发现
对于传统自编码器,理解力和生成质量都卡在左下角,增加训练量也不动
对于 VTP(红色点),理解力越强,生成质量越好,持续往右上角走

综上:理解力才是驱动生成的关键因素

怎么解决

既然问题定位到了:分词器学偏了
那么,解决方案也很清晰:让分词器学全
一边学重建,一边学理解

VTP 正式这个思路
把三种训练目标合在一起,联合优化

其一、图文对比学习

图文对比学习这一过程中,VTP 采用 CLIP 的训练方式

大致是这样 给模型看大量的「图像 + 文字描述」配对数据,让图像压缩出来的数字表示和对应文字的数字表示靠近

比如,给一张狗的照片,压缩后的数字表示要和「一只金毛犬在草地上奔跑」这句话的数字表示相似

图文对比学习
打开网易新闻 查看精彩图片
图文对比学习

这样视觉分词器在压缩图像时,就会保留语义信息,知道这张图「是什么」

其二、感知空间结构

感知空间结构中,VTP 采用 DINOv2 的训练方式,具体包括两类任务

第一类:
遮住图像的一部分,让模型预测被遮住的内容
这迫使模型理解图像的整体结构,而不是只记住局部像素

第二类
是对同一张图像做不同的裁剪和变换,让模型输出的表示保持一致

这样,模型就会被迫使着学习图像的本质特征,而不是被具体的像素值干扰

通过自监督,学习空间结构其三、像素重建
打开网易新闻 查看精彩图片
通过自监督,学习空间结构其三、像素重建

上面说了,要一边学重建,一边学理解
所以,传统的还原任务不能完全丢掉,但权重要调低

论文发现,把重建任务的损失权重设成0.1,对生成效果最好
(相比而言,理解任务的权重为1.0

权重需要调整
打开网易新闻 查看精彩图片
权重需要调整

至此,把这三个目标联合训练,让视觉分词器同时具备三种能力
理解图像内容感知空间结构保留像素细节

就这样,VTP 有了三种能力
打开网易新闻 查看精彩图片
就这样,VTP 有了三种能力

额外的,VTP 用的是 Vision Transformer(ViT),不是传统的 CNN
实验数据显示,ViT 架构在同等配置下生成效果更好,计算量还更低

还有一个有关于 batch size 的细节
不同训练任务,对 batch size 的需求差异很大:

  • • 图文对比学习需要很大的 batch(16k

  • • 自监督和重建任务用小 batch 就够(4k2k

打开网易新闻 查看精彩图片

对于 batch 这个问题,解决方法是这样:
每个 batch 里,全部样本用于图文对比学习,随机抽取一部分用于自监督和重建

效果如何

论文做了大量对比实验,从三个维度验证 VTP 的效果

维度一:理解、重建、生成的关系

先看下对比吧

纯重建训练:越练越差

重建越好、生成越差
打开网易新闻 查看精彩图片
重建越好、生成越差

随着训练时间增加:

  • • 重建能力持续变强:rFID2.07降到0.51

  • • 生成能力反而变差:gFID55.04涨到58.56

加入理解任务:三项全涨

CLIP+SSL+AE 联合训练
打开网易新闻 查看精彩图片
CLIP+SSL+AE 联合训练

用 CLIP + SSL + 重建 联合训练后:

  • • 生成能力大幅提升:gFID降到27.8

  • • 理解能力同步提升:Linear Probe 达到74.9%

  • • 重建能力也没掉:rFID降到0.36

三种能力不冲突,可以同时提升

维度二:缩放特性

传统方法存在天花板,VTP 则打破了这个天花板

缩放特性对比:算力、参数、数据
打开网易新闻 查看精彩图片
缩放特性对比:算力、参数、数据

数据缩放

  • • 传统自编码器:训练数据从 10 万张扩到 1 亿张,gFID只从58.37降到56.71

  • • VTP:同样的数据扩展,gFID47.59降到27.45

算力缩放

  • • 传统自编码器:算力增加到1/10处就停滞,之后gFID不降反升

  • • VTP:算力增加10倍,gFID提升65.8%,曲线仍在下降

参数缩放

  • • 传统自编码器:模型从20M参数扩到300M参数,gFID卡在57不动

  • • VTP:模型从 Small 到 Large,gFID31.28降到26.12

这意味着:在视觉分词器阶段投入更多资源,终于能换来持续的回报了

维度三:与现有方法对比

打开网易新闻 查看精彩图片
VTP 与主流方案的效果对比
  • • VTP-L 在理解能力上超过了原版 CLIP(78.2%vs75.5%

  • • 在重建能力上超过了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

  • • 在生成能力上超过了此前的改进方法 VA-VAE(gFID 2.81vs4.29

收敛速度方面:

  • • 比 VA-VAE 快4.1 倍

  • • 比原版 LDM 快5.7 倍

打开网易新闻 查看精彩图片
收敛速度 最后

MiniMax 的视频能力很能打,实属第一梯队,但技术上几乎不对外

而 MiniMax 这次的开源,选了视觉分词器这个方向,去尝试解决一个行业里很多人遇到过、但没人系统解释过的问题:
为什么分词器训得越好,生成效果反而没提升

过去一年的动作看,隔段时间,总能掏出点新东西

论文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代码
https://github.com/MiniMax-AI/VTP