团队一作林之秋(Zhiqiu Lin)是卡内基梅隆大学(CMU)机器人研究所的博士,研究方向涵盖视觉 - 语言大模型的评估、数据与生成;前作 CameraBench 曾获 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即将前往麻省理工学院(MIT)攻读博士,专注于多模态大模型。本工作由 CMU 与哈佛大学合作完成。
先来做一个小实验:把希区柯克变焦(dolly zoom)、拉焦(rack focus)、荷兰角(Dutch angle)或变速剪辑(speed ramp)这几个词,输入到大部分主流视频生成器里。结果几乎都一样,你只会得到一个普通的推镜,或一段平庸的慢动作。
原因很简单:这些技法对应着电影人之间通用的一套「镜头语言」,而当前的视觉 - 语言大模型几乎听不懂。
视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA
近日,由 CMU 联合哈佛大学组成的研究团队推出了CHAI(Critique-based Human-AI Oversight),一整套从「标注体系」「可扩展监督」到「后训练方法」再到「视频生成」的完整方案。该工作已被CVPR 2026 接收为 Highlight 论文(Top 3%)。
- 论文链接:https://arxiv.org/abs/2604.21718
- 代码:https://github.com/chancharikmitra/CHAI
图 1:CHAI 的整体方案。上半(红)是过往视频字幕工作的三大短板:缺乏统一规范、仅用人类或模型标注、仅凭输出对比做后训练;下半(蓝)是 CHAI 的对应方案:精准的结构化规范、可扩展的人机监督、基于显式偏好与批改的后训练,最终反哺出更专业的视频生成。
概述:CHAI 的四块拼图
CHAI 不是一个单独的模型,而是一整套面向精准视频语言的落地方案,由四块拼图组成:
- 标注体系(Specification):覆盖主体、场景、动作、空间构图和移动、镜头参数和运动 5 大维度,由 200+ 个与职业摄影师共同设计的视觉基元支撑。
- 可扩展监督(Scalable Oversight):让 LLM 起草字幕,由人类专家给出批改(critique),指出错误并提供修正,再交由 AI 改写。这一过程让 AI 负责写作,人类专注纠错,各司其长。
- 后训练方法(Post-Training):基于(初稿,批改,终稿),同时训练字幕、奖励模型与批改模型。团队训练的 Qwen3-VL-8B 开源小模型得以反超闭源的 Gemini-3.1-Pro 与 GPT-5。
- 更好的视频生成(Better Generation):用后训练好的模型重新对专业视频打字幕,再微调 Wan2.2,使其能听懂长达 400 英文词的电影级指令,精准生成希区柯克变焦、拉焦、荷兰角、变速、等距视角等专业摄影技法。
一、标注体系:把电影人的镜头语言写下来
过去的视频文本数据集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕规范,常见问题包括:混淆 dolly-in(推轨)与 zoom-in(变焦),遗漏关键相机与变焦细节,用「氛围感足」「让人热血沸腾」等主观描述代替客观视觉内容。
电影人以及更广泛的视频创作者则没有这个问题。他们用拉焦(rack focus)、荷兰角(Dutch angle)、中景(medium full shot)这样的专业术语在片场与团队实现了精准的沟通、协作。CHAI 正是把这套影视行业内的通用词汇整理成了一套清晰的标注体系。
图 2:与 100+ 位职业视频创作者历时一年共建的标注体系。左(红):过往数据集的三类典型问题,包括术语含混、信息缺失、主观描述;右(蓝):CHAI 的结构化标注体系及配套的标注规则与教程。
CHAI 的字幕标注覆盖 5 大维度:
- 主体(Subject):类型、外观、姿态、主体关系等
- ️ 场景(Scene):视角、叠加元素、环境、时间等
- 动作(Motion):动作行为、人物互动、群体动态等
- 空间构图和移动(Spatial):景别、画面位置、纵深、空间运动等
- 镜头参数和运动(Camera):机位高度、角度、焦距、聚焦、稳定度、运动轨迹等
图 3:CHAI 的视频语言分类体系:各一级维度进一步细分为多个子维度,并由 200 余个视觉与运动基元支撑,实现对视频内容的精细化表达。
二、可扩展监督:AI 起草,人类批改
规范告诉你「描述什么」,但「谁来写」仍是个问题。
人类亲手写的字幕常见问题有:错别字、语法错误、事件顺序混乱。模型写的字幕:行文流畅,却经常凭空捏造画面里没有的物体和动作(模型幻觉)。
CHAI 的核心思路是可扩展监督(Scalable Oversight):让模型负责写作,让人类专注发现字幕中的视觉与动作错误,各司其长。
CHAI 的标注流程由此被重新设计为「AI— 专家 —AI」的三段式协作:模型先按既定规范生成一份覆盖全面的「pre-caption」初稿,专家随后在初稿基础上指出错误并提出修改建议(critique),无需从零撰写字幕;模型再依据专家的批改意见进行改写,生成准确的「post-caption」终稿。
同时,CHAI 引入同行评审奖励机制:标注越准确,奖励越高;审核纠错同样有奖励。这一举措显著提升了标注的质量。
图 4:左(红):传统纯人工或纯模型标注的三类问题,包括视觉幻觉、行文糟糕、细节不准;右(蓝):CHAI 的可扩展监督框架。AI 基于基元生成初稿(pre-caption),人类用批改(critique)把幻觉与细节错误指出来,再由 AI 生成终稿(post-caption);标注员与审核员之间则通过同行评审奖励机制相互制衡。
把标注员工作重心从「写作」转向「校对」,他们对单个视频的认知负担得以显著降低,却能产出准确度更高的 200–400 词长字幕。
三、后训练效果:8B 小模型反超 GPT-5 与 Gemini-3.1-Pro
CHAI 流水线产出的不只是字幕,而是(pre-caption, critique, post-caption)三元组:一份数据,同时可以训练三种模型能力,包括字幕生成、奖励建模、批改生成。
CHAI 团队发现:批改的质量,决定了模型能力。
图 5:一条好的批改必须同时满足三个属性:准确(precision)、完整(recall)、有建设性(constructive)。CHAI 的标注机制通过强制标注员撰写高质量批改,直接指导模型改写,自然实现了这三点。
为了证明这一点,团队做了一组对比实验:分别削弱批改的某一项属性,观察对下游任务的影响。
研究得出三项关键结论。其一,在模型训练时加入奖励(reward)和批改(critique)的数据能够显著提升 SFT 与 RL 的效果,仅 8B 参数的 Qwen3-VL 经过后训练,便在多项关键评测上反超闭源的 Gemini-3.1-Pro 与 GPT-5。其二,批改质量是真正的瓶颈所在,准确性、完整性、和建设性三者缺一不可;然而过往工作(如 OpenAI GDC、MM-RLHF)所收集的批改样本中,超过 50% 属于非建设性反馈。其三,推理时扩展(Inference-Time Scaling)同样适用于这一框架,以同一份奖励模型进行 best-of-N 选择,无需新增数据,性能即可持续提升。
四、更准的理解 → 更好的生成
视频字幕做得更准之后,最直接的下游应用就是视频生成。
研究团队用后训练好的字幕模型,重新对大规模专业视频(电影、广告、MV、游戏画面)进行打标,再以这些数据微调 Wan2.2。结果:模型可以听懂长达 400 词的电影级指令,对那些开源生成器(Wan2.2)普遍翻车的技法实现精准生成。
图 6:在重新打标的专业视频上微调后,Wan2.2 对详细的电影级指令显著更忠实,可以精准执行希区柯克变焦(上)、保持 2.5D 等距视角(下)等过往视频模型频繁失败的复杂技法。
下面是更多团队展示的「电影技法」生成样例:
荷兰角(Dutch Angle)画面地平线倾斜
视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA
拉焦(Rack Focus)焦点在不同平面切换
视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA
为什么不用众包?为什么过去的标注总是失败?
在请来职业创作者之前,团队也尝试过众包工人。结果?众包标注员仍然分不清 推轨(dolly-in)与 变焦 (zoom-in)、把全景镜头(full shot)叫成 特写(close-up shot)、把鱼眼镜头(fisheye lens)造成的建筑物变形描述成「圆形的建筑」。
图 7:众包标注员描述常见镜头技法时的典型错误。把鸟瞰镜头叫「鸟瞰视图」、把鱼眼镜头看作「圆形建筑」、把推焦镜头描述为「推轨镜头」等,反映出他们缺乏对镜头语言的基本视觉词汇。
为进一步验证这一判断,团队系统评估了 2016 至 2025 年间发布的 8 个公开视频 - 文本数据集(包括 MSR-VTT、PerceptionLM、Dream1K 等),结果指向两类反复出现的问题。其一源于标注规则缺失,术语含混、关键信息缺失;其二源于监督不足,导致行文混乱与细节失真。无论扩大模型规模还是增加数据体量,都难以解决,根本问题在于流程,必须从数据标注源头入手。这一发现直接促成了 CHAI 团队和 100+ 位职业视频创作者的长期合作。
写在最后:开源生态
为了支持后续研究与产业落地,CHAI 团队完整开源了:标注体系、培训教材、标注平台、质控流程、数据、代码与模型。
项目主页:https://linzhiqiu.github.io/papers/chai/
CHAI 是该 CMU 团队「精准视频语言」研究计划中的一环。同期推进的还有两项工作:CameraBench(NeurIPS'25 Spotlight,入选率前 3%)作为相机运动理解的前作基准,包含约 3000 个专家标注视频、一套完整的运动基元分类体系,以及对 SfM 与 VLM 方法的系统性评测;Moodio 与 CameraBench-Pro(2026 年 5 月发布)则在此基础上更进一步,基于 225 个电影级基元与 150 万余条专业标注,面向专业视频制作场景打造 AI 协作工具。
热门跟贴