视觉模型智能涌现后， Scaling Law 不会到头|scaling|上下文|模态|视觉模型|预训练

Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文，其研究表明当下的语言模型在大量数据上经历了过度训练，继续叠加更多的预训练数据可能会产生副作用。

这释放的信号是：在自然语言处理领域， Scaling Law 目光所及地到达瓶颈，单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效，低精度的训练和推理正在使模型性能提升的边际效益递减。

Scaling Law 在 NLP 的路上确实展现出了「即将到头」的前兆，但这并不意味着其末日真的来临。在多模态模型领域，由于多模态数据包含图像、视频、音频等多种类型，在信息丰富度、处理方法、应用领域方面均较为复杂，难以达到较大的训练规模体量，因此 Scaling Law 尚没有被真真切切地验证过。

然而，清华系大模型公司生数科技最新发布的 Vidu1.5 表明，多模态领域的 Scaling Law 才刚刚起步。通过持续的 Scaling Up ， Vidu 1.5 已经来到了「奇点」时刻，涌现出了「上下文能力」，能够理解记忆所输入的多主体信息，并表现出对复杂主体更精准的控制能力。无论是细节丰富的角色还是复杂的物体，通过上传不同角度下的三张图片，Vidu 1.5 能保证单主体形象的高度一致。

Vidu 1.5 除了能对单个主体进行精确控制，也实现了多主体之间的一致性。用户可以上传包含人物角色、道具物体、环境背景等多种元素的图像，Vidu能够将这些元素无缝的融合到一起，并实现自然交互。

Vidu 在主体一致性方面取得种种突破，不仅是 Scaling Law 法则在发挥作用，根本原因在于其所采用的无微调、大一统的技术架构方案。当前的视频模型为了实现一致性，大多是采用在预训练的基础上再针对单个任务进行微调的LoRA方案，而 Vidu 的底层模型跳出业界主流方案，做出了开拓性的改变。

无独有偶，回顾大语言模型的发展历程，会发现从 GPT-2 到 GPT-3.5 发生质变的标志，也是实现了从预训练+特定任务微调的方式到整体统一框架的突破。可以说，Vidu 1.5的推出，开启了多模态大模型的 GPT-3.5 时刻。

Sora 自年初发布之后，再无其他迭代的新版本，其他家的视频生成创业团队也仿佛没了锚定的方向，大多是在 DiT 架构上进行些衍生性工作。对于这一现象，生数科技 CTO 鲍凡则表示：我们不会在 Sora 划定好的路线上去追赶，而是从一开始就在走自己的路，瞄准通用多模态大模型的目标，去实现相应的能力。

从早于 Sora 发布全球首个基于 Diffusion 的 Transformer 架构U-ViT，到首次实现用统一的架构处理泛化任务，生数有的不仅是先发优势，更是持续突破的能力。Vidu 和业界其他的视频生成模型相比，已经初步形成技术代差。

一、重新设计一个「底层架构」

实现主体一致性，是视频模型领域一块难啃的骨头。「这就好比，你知道发动机对于一辆汽车来讲很重要，也知道如果发动机有质的改变，那么汽车的性能也会随之提升，但就是很难造出来一台好的发动机。」鲍凡告诉 AI 科技评论。

包括 Sora 在内，国内外的视频模型都没有在主体一致性方面有所突破。目前有涉足的是国内的一家大厂，仅局限于实现人脸一致性的控制，难以保证细节、衣服、造型等细节，而且采用的是LoRA微调方案。

Vidu 在主体一致性方面的成果也并非一蹴而就。2024 年 7 月底， Vidu 上线之初就主打解决一致性问题，并能够较好地实现面部一致的控制；9月份全球首发「主体参照」功能，把对单主体的控制从面部拓展到整个单主体的形象上；11 月上线的 Vidu 1.5 则进一步提升，可以对单主体的不同视角进行高度精准控制，同时攻破多主体控制的难题。

也就是说，Vidu 在 7 月份上线之时就完成了很多视频生成模型当下正在攻克的事情。

从技术方案上看，其他家都还囿于预训练+LoRA 微调的方案，这种路线虽然成熟但也存在诸多缺点，诸如因数据构造繁琐而需要较长的训练时间、易产生过拟合从而遗忘大量原有知识、无法捕捉细节导致特征不精准。生数则秉承通用性的理念，通过统一的底层模型技术架构去完成，因此不需要单独再去进行数据的收集、标注、微调，只需要1到3张图就能输出高质量视频。

对比大语言模型的技术演进路线会发现，Vidu 有和大语言模型一致的设计哲学：类似于大语言模型用一个 Transformer 去处理所有的输入和输出 tokens，Vidu 作为视频模型也会将所有问题都统一成视觉输入、视觉输出的 patches；在此基础上，再统一架构，Vidu 也像大语言模型一样采用单个网络统一建模变长的输入和输出。

「统一问题形式」是通用模型的起点。更难的地方在于统一架构，现在 Vidu 已经在最初的 U-ViT 上做了一些颠覆性的设计，和 Sora 的 DiT 架构产生了本质区别，在架构上做到更统一。鲍凡坦言，开发这一架构的难度不亚于从头设计出一个 Transformer。

大一统架构的前身要追溯到 2022 年 9 月，彼时尚在清华大学朱军教授的课题组读博的鲍凡就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文，提出U-ViT 架构，比 Sora 的 DiT 架构提早了两个月，将 DiT 拒稿的 CVPR2023 却收录了 U-ViT。

2023年3月，朱军教授课题组再次发布了一项Unidiffuser的工作，Unidiffuser 与同阶段的 Stable Difussion 1.5 效果基本持平，展示了在视觉任务下的优异能力，更重要是，Unidifuser扩展性更强，能基于一个底层模型完成图文之间的任意生成。简单来讲，除了单向的文生图，还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。之后，而 OpenAI 则是将 DiT 应用于视频任务，生数作为初创团队则是先将 U-ViT 应用于图像任务，从算力集群规模要求更小的任务入手进行验证。

2024 年 4 月，生数的底层模型架构开始在 U-ViT 架构上做出改变，使得团队率先推出自研视频大模型Vidu，然后这种突破也一直持续着，在7月份正式全球上线的时候，Vidu 在人脸一致性问题上成功地实现了验证。直到本次 Vidu1.5 版本的发布，基于这一架构之上的 Scaling Up 让多模态模型看到了「奇点」。

回顾大语言模型发展过程，GPT-2 的核心思想是在预训练阶段让模型通过海量的文本数据进行无监督学习，不依赖于特定的任务；在预训练之后，GPT-2 使用特定领域的标注数据对模型进行细化调整，使其能够更好地适应特定任务或应用场景。但到 GPT-3.5 的阶段，不再采用预训练加特定任务微调的模式，只需一个更简单高效的统一架构能够去支持多种文本任务，模型已经出现了强大的泛化能力。

类似于从 GPT-2 到 GPT-3.5 ，实现了从预训练加特定任务微调到统一通用的技术架构，Vidu 1.5的推出，让视频模型正在经历 GPT-3.5 时刻。也就是说，其他家的视频模型还在 GPT-2 预训练+微调的阶段，生数的 Vidu 已经到了 GPT-3.5 的阶段。

二、视觉上下文时代的智能涌现

统一高效的底层技术架构是 Vidu 的根本所在，但其目前呈现的综合表现不仅是技术架构使然，更与视频模型的数据工程密不可分。

在人物特写画面中，Vidu 1.5 能够确保人物面部的特征细节和动态表情变化自然流畅，不会出现面部僵硬或失真的现象。该视频中，小女孩的表情能实现从高兴到悲伤的变化十分自然。鲍凡告诉 AI 科技评论，数据对这些细节方面的精心调控非常重要。

随着高质量数据的一同Scaling Up ，鲍凡坦言，在底层的视频生成模型上也看到了类似于大语言模型的智能涌现。比如 Vidu1.5 能融合不同主体，将角色 A 的正面与角色 B 的反面无缝融合以创造出全新的角色，这是之前没有预料到的能力。

除此之外， Vidu1.5 的智能涌现还可以从模型上下文能力提升、记忆能力增强来窥探一二，这体现在对视频中角色、道具、场景的统一控制。

这一现象的关键是解决了「多图灵活输入」的问题，类似于语言模型提升了窗口长度。在与聊天机器人对话的过程中，先通过提示词给出一个角色设定，之后 Chatbot 就能以这个角色的口吻进行交互对话，这说明语言模型不仅仅处理单一的文本输入信息，而是通过关联前后的文本、识别语句之间的关系，生成连贯且符合情境的回答或内容。

同样的，给视频模型一个主体照片作为 prompt，那么在下文中无论继续给出什么新指令，都能生出上文照片中主体相关的视频。可见，视频模型要想更稳定地生成一致主体，也需要理解前后输入的、相关联的文字或图片信息，进而根据这些信息生成一致、连贯且有逻辑的内容。

实际上，从单主体一致性到多主体一致性提升的难度也在于上下文长度。在几个月之前的单主体架构的设计上，就已经兼容现在的多主体一致的架构，而多主体一致相比单主体一致需要更长的上下文长度，从而解决理解更多输入组合的关键问题。

接下来，生数的主攻方向依然会沿着上下文能力这一主线去迭代。「视频模型上下文能力提升后有很大的想象空间。」鲍凡说道。他进一步解释，在模型中输入几段王家卫的电影切片，就可以生成一系列具有王家卫摄影技巧的视频片段；喂给模型一些经典打斗动作的视频，就能生出打斗技巧精妙、打戏画面精良的视频。