去年好莱坞编剧罢工期间,有个段子在片场流传:AI不会抢走你的工作,但会用AI的人会。现在Netflix把这个玩笑变成了产品。
他们刚开源了一个叫VOID的视频模型,能让导演在拍摄结束后彻底改写剧情走向——比如把一场价值300万美元的车祸爆炸戏,一键改成主角驾车驶向夕阳。
不需要重拍,不需要CG团队熬夜,只需要几秒钟的推理时间。
VOID到底能做什么
VOID全称Video Object and Interaction Deletion,是个视觉-语言模型(vision-language model)。它的能力用一句话概括:删除画面中的任意物体,并让剩余物体自动补全"如果没有那个物体,世界该怎么运转"。
研发团队举了个具体例子。画面里一个人跳进泳池,水花四溅。VOID可以抹掉这个人,同时生成一段新视频——泳池平静如初,地面干燥,仿佛什么都没发生过。
更复杂的场景也能处理。两辆车迎面相撞,碎片横飞。VOID能删掉其中一辆车,让另一辆继续沿着物理合理的轨迹行驶,同时把爆炸、烟雾、残骸全部替换成干净的柏油路面。
这背后是两个技术动作的缝合:对象擦除(object removal)和物理合理的内容填充(physically-plausible inpainting)。市面上现有工具大多只能做前者,或者填充效果像贴图。VOID试图让两者连贯起来。
团队放出了对比数据。在25人参与的盲测中,VOID在多个场景下的偏好率达到64.8%,Runway以18.4%排第二,其他工具瓜分剩余份额。
谁做了这个工具
论文署名列表读起来像Netflix的AI部门通讯录:Saman Motamed、William Harvey、Benjamin Klein、Zhuoning Yuan、Ta-Ying Cheng,外加一位来自索菲亚大学的Luc Van Gool。
Motamed和Van Gool的学术背景解释了VOID的底层逻辑——这帮人确实懂计算机视觉。但其他作者的全职Netflix身份也说明,这不是纯研究项目,是带着业务目标出生的。
Netflix已经把模型权重丢上了Hugging Face,任何人都能下载。这个决策本身就很值得玩味:一家内容公司,把自己可能改变制作流程的核心技术开源了。
可能的解释有几个。一是技术护城河不在模型本身,而在数据和算力;二是吸引开发者共建生态,把VOID做成事实标准;三是公关考量,在AI版权争议愈演愈烈的当下,摆一个"我们也在贡献开源社区"的姿态。
当然,也可能是三者都有。
和现有工具的区别
Runway、Generative Omnimatte、DiffuEraser、ROSE、MiniMax-Remover、ProPainter——VOID的论文里点名了六个竞品。这种点名方式在学术写作里不多见,带着点产品发布会的攻击性。
核心差异在于"交互理解"。其他工具擦除物体时,往往把背景当成静态画布来修补。VOID会计算物体之间的关系:A撞了B,删掉B之后,A该怎么动?碎片该往哪飞?烟雾该怎么散?
用团队自己的话说,VOID是"a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios"。
翻译成人话:我们不是修图,是在做物理模拟。
但这个"物理合理"是有边界的。论文没提的是,VOID对复杂光照、反射、阴影的处理能力到底如何。一辆车从爆炸现场变成正常行驶,车身上的火焰反光能不能自然消退?车窗倒影里的另一辆车能不能同步消失?这些细节才是决定观众会不会"出戏"的关键。
盲测的25人样本量也偏小,且场景选择由Netflix自己决定。真正的考验是用户拿自己的素材去试——那种光线混乱、运动模糊、遮挡严重的实拍镜头。
对影视制作意味着什么
回到开头那个假设场景。导演拍完了《车祸惊魂3》的结局,制片人突然说"主角别死了,我们要拍第四部"。
传统方案:召回演员、封锁道路、重新搭建爆炸装置、再烧300万美元。或者扔给CG团队,让他们用数月时间逐帧擦除。
VOID方案:上传视频,框选要删的卡车,等模型跑完,导出。
这个对比有点过于美好,美好到让人警惕。实际操作中,导演可能要反复调整——车的速度对不对?路面痕迹自不自然?远景里被遮挡的建筑物露馅了没?
但即便如此,时间成本也从"月"降到了"天",甚至"小时"。
更深远的影响在创作层面。当改剧情变得廉价,"拍板"这个动作的价值会被稀释。制片人可以在杀青后三个月还在纠结结局,因为改动成本趋近于零。这对创作是解放还是诅咒,取决于你站在哪边。
演员和替身演员可能是输家。那些专门拍"被撞飞"镜头的特技团队,需求会萎缩。同样的技术路径延伸到音频,配音演员的市场也会收缩。
Netflix自己的内容库是VOID的天然训练场。数千万小时的独家素材,涵盖各种光照条件、运动模式、场景类型。这是Runway们难以复制的数据壁垒——哪怕模型架构被开源复刻,喂进去的东西不一样,吐出来的质量也不同。
开源背后的算计
Hugging Face上的VOID仓库已经能跑。这意味着独立创作者、小型制作公司、甚至学生剧组,都能用上原本只有流媒体巨头才养得起的AI工具。
但"能用"和"好用"是两回事。VOID的推理需要多少显存?对视频长度和分辨率有什么限制?处理一镜到底的长镜头会不会崩?这些工程细节决定了它能不能走出实验室。
Netflix没公布训练成本,但类似规模的视频模型通常需要数千张高端GPU跑数周。开源模型权重是免费的,跑起来的电费不是。
另一个悬念是授权条款。VOID生成的内容版权归谁?如果用户用它修改了受版权保护的素材,责任怎么划分?Netflix的论文和仓库说明里,这些问题语焉不详。
在好莱坞,这恰恰是当下最敏感的神经。编剧工会和演员工会的合同里,AI条款是谈判焦点。VOID的开源时机,正好卡在这个历史节点上。
技术本身是中立的,但技术的发布节奏从来不是。
影视工业上一次被技术颠覆,是从胶片到数字拍摄。那次转型花了十五年。AI工具的普及速度会快得多——模型已经在那儿了,只需要算力成本再降一个数量级。
Netflix的赌注是:成为这个生态的定义者,而不是被定义。开源VOID,相当于在行业标准形成之前,先把自己的方案摆上桌。
至于导演们能不能真的省下那300万重拍费,可能要看第四部《车祸惊魂》的票房表现——如果还有第四部的话。
如果VOID能把一场爆炸改成大团圆,它也能把大团圆改回爆炸。当修改成本趋近于零,"最终版"这个概念还存在吗?
热门跟贴