AI像电影人一样「看」视频，8B小模型反超GPT-5与Gemini-3.1-Pro|新论文|电影人

团队一作林之秋（Zhiqiu Lin）是卡内基梅隆大学（CMU）机器人研究所的博士，研究方向涵盖视觉 - 语言大模型的评估、数据与生成；前作 CameraBench 曾获 NeurIPS’25 Spotlight（Top 3%）。二作 Chancharik Mitra 即将前往麻省理工学院（MIT）攻读博士，专注于多模态大模型。本工作由 CMU 与哈佛大学合作完成。

先来做一个小实验：把希区柯克变焦（dolly zoom）、拉焦（rack focus）、荷兰角（Dutch angle）或变速剪辑（speed ramp）这几个词，输入到大部分主流视频生成器里。结果几乎都一样，你只会得到一个普通的推镜，或一段平庸的慢动作。

原因很简单：这些技法对应着电影人之间通用的一套「镜头语言」，而当前的视觉 - 语言大模型几乎听不懂。

视频链接：https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

近日，由 CMU 联合哈佛大学组成的研究团队推出了CHAI（Critique-based Human-AI Oversight），一整套从「标注体系」「可扩展监督」到「后训练方法」再到「视频生成」的完整方案。该工作已被CVPR 2026 接收为 Highlight 论文（Top 3%）。

论文链接：https://arxiv.org/abs/2604.21718
代码：https://github.com/chancharikmitra/CHAI

图 1：CHAI 的整体方案。上半（红）是过往视频字幕工作的三大短板：缺乏统一规范、仅用人类或模型标注、仅凭输出对比做后训练；下半（蓝）是 CHAI 的对应方案：精准的结构化规范、可扩展的人机监督、基于显式偏好与批改的后训练，最终反哺出更专业的视频生成。

概述：CHAI 的四块拼图

CHAI 不是一个单独的模型，而是一整套面向精准视频语言的落地方案，由四块拼图组成：

标注体系（Specification）：覆盖主体、场景、动作、空间构图和移动、镜头参数和运动 5 大维度，由 200+ 个与职业摄影师共同设计的视觉基元支撑。
可扩展监督（Scalable Oversight）：让 LLM 起草字幕，由人类专家给出批改（critique），指出错误并提供修正，再交由 AI 改写。这一过程让 AI 负责写作，人类专注纠错，各司其长。
后训练方法（Post-Training）：基于（初稿，批改，终稿），同时训练字幕、奖励模型与批改模型。团队训练的 Qwen3-VL-8B 开源小模型得以反超闭源的 Gemini-3.1-Pro 与 GPT-5。
更好的视频生成（Better Generation）：用后训练好的模型重新对专业视频打字幕，再微调 Wan2.2，使其能听懂长达 400 英文词的电影级指令，精准生成希区柯克变焦、拉焦、荷兰角、变速、等距视角等专业摄影技法。

一、标注体系：把电影人的镜头语言写下来

过去的视频文本数据集（如 ActivityNet、MSR-VTT、PerceptionLM）由于缺乏字幕规范，常见问题包括：混淆 dolly-in（推轨）与 zoom-in（变焦），遗漏关键相机与变焦细节，用「氛围感足」「让人热血沸腾」等主观描述代替客观视觉内容。

电影人以及更广泛的视频创作者则没有这个问题。他们用拉焦（rack focus）、荷兰角（Dutch angle）、中景（medium full shot）这样的专业术语在片场与团队实现了精准的沟通、协作。CHAI 正是把这套影视行业内的通用词汇整理成了一套清晰的标注体系。

图 2：与 100+ 位职业视频创作者历时一年共建的标注体系。左（红）：过往数据集的三类典型问题，包括术语含混、信息缺失、主观描述；右（蓝）：CHAI 的结构化标注体系及配套的标注规则与教程。

CHAI 的字幕标注覆盖 5 大维度：

主体（Subject）：类型、外观、姿态、主体关系等
️ 场景（Scene）：视角、叠加元素、环境、时间等
动作（Motion）：动作行为、人物互动、群体动态等
空间构图和移动（Spatial）：景别、画面位置、纵深、空间运动等
镜头参数和运动（Camera）：机位高度、角度、焦距、聚焦、稳定度、运动轨迹等

图 3：CHAI 的视频语言分类体系：各一级维度进一步细分为多个子维度，并由 200 余个视觉与运动基元支撑，实现对视频内容的精细化表达。

二、可扩展监督：AI 起草，人类批改

规范告诉你「描述什么」，但「谁来写」仍是个问题。

人类亲手写的字幕常见问题有：错别字、语法错误、事件顺序混乱。模型写的字幕：行文流畅，却经常凭空捏造画面里没有的物体和动作（模型幻觉）。

CHAI 的核心思路是可扩展监督（Scalable Oversight）：让模型负责写作，让人类专注发现字幕中的视觉与动作错误，各司其长。

CHAI 的标注流程由此被重新设计为「AI— 专家 —AI」的三段式协作：模型先按既定规范生成一份覆盖全面的「pre-caption」初稿，专家随后在初稿基础上指出错误并提出修改建议（critique），无需从零撰写字幕；模型再依据专家的批改意见进行改写，生成准确的「post-caption」终稿。

同时，CHAI 引入同行评审奖励机制：标注越准确，奖励越高；审核纠错同样有奖励。这一举措显著提升了标注的质量。

图 4：左（红）：传统纯人工或纯模型标注的三类问题，包括视觉幻觉、行文糟糕、细节不准；右（蓝）：CHAI 的可扩展监督框架。AI 基于基元生成初稿（pre-caption），人类用批改（critique）把幻觉与细节错误指出来，再由 AI 生成终稿（post-caption）；标注员与审核员之间则通过同行评审奖励机制相互制衡。

把标注员工作重心从「写作」转向「校对」，他们对单个视频的认知负担得以显著降低，却能产出准确度更高的 200–400 词长字幕。

三、后训练效果：8B 小模型反超 GPT-5 与 Gemini-3.1-Pro

CHAI 流水线产出的不只是字幕，而是（pre-caption, critique, post-caption）三元组：一份数据，同时可以训练三种模型能力，包括字幕生成、奖励建模、批改生成。

CHAI 团队发现：批改的质量，决定了模型能力。

图 5：一条好的批改必须同时满足三个属性：准确（precision）、完整（recall）、有建设性（constructive）。CHAI 的标注机制通过强制标注员撰写高质量批改，直接指导模型改写，自然实现了这三点。

为了证明这一点，团队做了一组对比实验：分别削弱批改的某一项属性，观察对下游任务的影响。

研究得出三项关键结论。其一，在模型训练时加入奖励（reward）和批改（critique）的数据能够显著提升 SFT 与 RL 的效果，仅 8B 参数的 Qwen3-VL 经过后训练，便在多项关键评测上反超闭源的 Gemini-3.1-Pro 与 GPT-5。其二，批改质量是真正的瓶颈所在，准确性、完整性、和建设性三者缺一不可；然而过往工作（如 OpenAI GDC、MM-RLHF）所收集的批改样本中，超过 50% 属于非建设性反馈。其三，推理时扩展（Inference-Time Scaling）同样适用于这一框架，以同一份奖励模型进行 best-of-N 选择，无需新增数据，性能即可持续提升。

四、更准的理解 → 更好的生成

视频字幕做得更准之后，最直接的下游应用就是视频生成。

研究团队用后训练好的字幕模型，重新对大规模专业视频（电影、广告、MV、游戏画面）进行打标，再以这些数据微调 Wan2.2。结果：模型可以听懂长达 400 词的电影级指令，对那些开源生成器（Wan2.2）普遍翻车的技法实现精准生成。

图 6：在重新打标的专业视频上微调后，Wan2.2 对详细的电影级指令显著更忠实，可以精准执行希区柯克变焦（上）、保持 2.5D 等距视角（下）等过往视频模型频繁失败的复杂技法。

下面是更多团队展示的「电影技法」生成样例：

荷兰角（Dutch Angle）画面地平线倾斜

视频链接：https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

拉焦（Rack Focus）焦点在不同平面切换

视频链接：https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

为什么不用众包？为什么过去的标注总是失败？

在请来职业创作者之前，团队也尝试过众包工人。结果？众包标注员仍然分不清推轨（dolly-in）与变焦（zoom-in）、把全景镜头（full shot）叫成特写（close-up shot）、把鱼眼镜头（fisheye lens）造成的建筑物变形描述成「圆形的建筑」。

图 7：众包标注员描述常见镜头技法时的典型错误。把鸟瞰镜头叫「鸟瞰视图」、把鱼眼镜头看作「圆形建筑」、把推焦镜头描述为「推轨镜头」等，反映出他们缺乏对镜头语言的基本视觉词汇。

为进一步验证这一判断，团队系统评估了 2016 至 2025 年间发布的 8 个公开视频 - 文本数据集（包括 MSR-VTT、PerceptionLM、Dream1K 等），结果指向两类反复出现的问题。其一源于标注规则缺失，术语含混、关键信息缺失；其二源于监督不足，导致行文混乱与细节失真。无论扩大模型规模还是增加数据体量，都难以解决，根本问题在于流程，必须从数据标注源头入手。这一发现直接促成了 CHAI 团队和 100+ 位职业视频创作者的长期合作。

写在最后：开源生态

为了支持后续研究与产业落地，CHAI 团队完整开源了：标注体系、培训教材、标注平台、质控流程、数据、代码与模型。

项目主页：https://linzhiqiu.github.io/papers/chai/

CHAI 是该 CMU 团队「精准视频语言」研究计划中的一环。同期推进的还有两项工作：CameraBench（NeurIPS'25 Spotlight，入选率前 3%）作为相机运动理解的前作基准，包含约 3000 个专家标注视频、一套完整的运动基元分类体系，以及对 SfM 与 VLM 方法的系统性评测；Moodio 与 CameraBench-Pro（2026 年 5 月发布）则在此基础上更进一步，基于 225 个电影级基元与 150 万余条专业标注，面向专业视频制作场景打造 AI 协作工具。