12个月前,Sora的演示视频让全网沸腾。12个月后,OpenAI悄悄关闭了这个项目,迪士尼提前终止了合作。一位从业5年的视频编辑花了整整一年测试市面上所有AI视频工具,他的结论很直白:那些看起来最酷的功能,恰恰是专业用户最用不上的。
这不是事后诸葛亮。2024年2月Sora首次亮相时,4K分辨率的东京街头、光影流转的咖啡杯、人物自然的微表情——这些Demo确实惊艳。但Demo和交付物之间的距离,比很多人想象的要远得多。
今年1月,这位编辑接了一个产品演示片的活儿。客户要求10秒镜头,主角是同一个人,场景连贯。他用Sora生成了40遍。40遍。没有两次结果能让主角的脸保持一致,灯光在画面中间突然变冷又变热。最后他放弃了,改用传统拍摄。
40次生成换不来一张能用的脸
这个问题不止Sora有。Runway Gen-3、快手的可灵3.0、Pika,全都在同一个坑里摔过。文本生成视频(text-to-video)的概念听起来像魔法——输入一句话,输出一段影像。但专业编辑的工作流程恰恰相反:他们手里已经有素材了,需要的是处理这些素材的工具,而不是凭空造一段新画面。
更隐蔽的成本在算力端。Sora每次生成都在消耗GPU资源,而OpenAI的核心业务是语言模型。当一项副业每天烧掉数百万美元的推理成本,却没人愿意为它付费时,财务报表会说话。一位接近OpenAI的知情人士透露,Sora的日均推理开销在高峰期接近ChatGPT的15%,但付费转化率不到后者的1/50。
护城河的问题同样致命。Google的Veo 2、Runway的迭代版本、可灵的快速跟进——这个赛道拥挤得惊人。Sora有先发热度,却没有先发优势。等它真正对外开放时,市面上已经有价格更低、效果相当的替代品。迪士尼的退出决定 reportedly 发生在2024年第四季度,比公开消息早了至少两个月。
「我们测试了Sora的API集成,但无法保证角色一致性。对于需要跨季度出现的IP角色,这是致命缺陷。」
一位参与迪士尼评估流程的技术负责人这样解释。IP角色的视觉一致性是影视工业的基础要求,而生成式AI在这个维度上至今没有可靠解决方案。
真正省时间的,是那些「无聊」功能
有趣的是,当所有人盯着生成式AI的炫技Demo时,另一类工具已经悄悄重构了视频编辑的工作流。它们不生成画面,只处理现有素材——但省下的时间却是真实的。
自动转录和字幕。这位编辑以前花45分钟手动敲完10分钟采访的字幕,现在30秒出稿,准确率95%以上。仅此一项,比他试用过的所有生成工具加起来都管用。
脚本标记粗剪。采访类内容的典型场景:3小时原始素材,按脚本找对应片段。以前一个下午的工作量,现在输入脚本就能自动匹配。不是完美匹配,但足够把筛选时间压缩到20分钟。
多机位色彩匹配。两台相机色温偏差是现场拍摄的常态,以前每场景调20分钟,现在AI秒出基准,85%的情况直接可用。剩下15%手动微调,但这个比例意味着真正的效率提升。
智能音频清理。这位编辑提了一个具体案例:客户在施工场地旁边录采访,两年前这种素材只能作废。现在过一遍降噪,听感接近演播室。背景里的电钻声被识别为「非人声频率」并压制,而人声的齿音和呼吸感保留了下来。
这些功能没有Sora Demo的视觉冲击力,但它们解决的是真实存在的痛点。更重要的是,它们建立在确定性输出上——编辑知道工具能做什么、不能做什么,可以据此规划工作流。而生成式AI的不可预测性,让它在专业场景中难以被信任。
NemoVideo们为什么选了一条「笨」路
一些工具开始明确转向这个方向。NemoVideo(原称Nemo)的产品迭代轨迹很有代表性:早期尝试过文生视频功能,2024年下半年全面转向「AI辅助编辑」定位。他们的最新版本砍掉了文本生成模块,强化了多机位同步、语音分离、自动标记等传统环节的自动化。
这个决策的代价是失去「AI视频」赛道的媒体热度,但换来了实际的用户留存。据第三方数据平台Sensor Tower统计,NemoVideo的专业订阅用户月均使用时长在2024年Q4同比增长210%,而同期Runway的该指标下降17%。
另一个信号来自Adobe。Premiere Pro的AI功能更新集中在三个领域:语音转文本、场景编辑检测、色彩自动匹配。全是「无聊」应用,没有一个涉及画面生成。Adobe的年度创意大会Max 2024上,生成式AI被明确区分为「Firefly产品线」,与核心编辑工具保持物理隔离。
这种产品架构传递了一个判断:生成式AI更适合作为创意探索的 sandbox(沙盒),而非生产流程的 embedded(嵌入)组件。当编辑需要确定性输出时,传统算法的可控性反而更有价值。
「我花了6个月说服团队放弃在正片里用AI生成镜头。不是因为效果差,是因为我们无法向客户解释为什么第3版和最终版的主角长得不一样。」
一位广告公司的后期总监这样说。他的团队现在只在概念预演阶段使用生成工具,正式制作环节全部回归实拍或3D渲染。
算力重估与商业模型的坍塌
Sora的关闭还有一个技术经济层面的背景:视频生成模型的推理成本被系统性低估了。OpenAI内部曾有一个乐观预期,认为随着模型优化,单次生成的成本可以在12个月内下降90%。但实际进展远慢于预期,核心瓶颈在于视频数据的时序一致性——要让连续帧保持物理合理,需要的计算量远超静态图像。
一位前OpenAI研究人员的说法是,Sora的架构选择(基于Transformer的时空联合建模)在学术上优雅,但工程上昂贵。「每一帧都在重新计算全局注意力,这对于10秒视频意味着300次全量推理。」相比之下,Runway采用的扩散模型+光流补偿方案虽然理论上限较低,但单位成本可控得多。
这种成本结构直接决定了商业模式的可行性。Sora的定价曾试探性地定在每10秒视频0.5-2美元(按分辨率浮动),但实际运营成本是这个数字的3-4倍。OpenAI尝试过限制免费用户的生成时长、降低输出分辨率、排队机制等节流手段,但都没能扭转亏损。
更深层的问题是需求验证的失败。Sora团队原本假设存在大量「非专业用户需要专业级视频」的场景——小企业主做产品展示、教师制作课件、自媒体快速出片。但调研显示,这些用户要么对质量要求低到手机剪辑就能满足,要么对质量要求高到必须找专业团队。中间地带的市场规模,比预期小了一个数量级。
迪士尼的退出是最后一根稻草。这家娱乐巨头原本计划将Sora用于部分剧集的背景生成和概念验证,但试点项目的反馈是:美术部门需要的时间没有减少,反而增加了「生成-筛选-修正」的新环节。一位参与试点的视觉特效制片人描述:「以前我们画概念图,现在我们要生成40张概念图然后挑一张。总工作量没变,只是分配方式变了。」
2025年的视频编辑工具,该长什么样
Sora的教训正在被重新解读。一种流行的观点是「生成式AI在视频领域超前了」,但这可能搞错了重点。真正的问题是应用场景的错配——把需要精确控制的工业流程,套用到了概率输出的技术范式上。
更准确的描述或许是:视频编辑的AI化正在发生,但发生在生产流程的「接缝处」而非「核心处」。转录、标记、色彩、音频这些环节,本质上是信息提取和格式转换,AI的模糊性可以被容忍甚至利用。而画面生成涉及创作意图的精确表达,目前的概率模型还无法可靠承载。
这位5年从业经验的编辑现在的工具链是:Descript做转录和粗剪,DaVinci Resolve的AI色彩匹配,Adobe Podcast的音频清理,Topaz Video AI做分辨率提升。没有一个是「AI视频生成」工具,但每一个都确实省下了时间。
他的预测是,未来12个月会看到更多「混合架构」产品——传统算法负责确定性输出,生成式AI作为可选的创意层。就像Photoshop的生成填充功能:你可以用它,但也可以完全不用,不影响核心工作流。
OpenAI已经转向。2025年3月的更新中,他们的视频相关研究重点从「生成」转向了「理解」——用多模态模型分析视频内容,而非创造新视频。这个方向的商业路径更清晰:内容审核、版权检测、智能推荐,都是已经被验证过的需求。
至于那些还在坚持文生视频路线的公司,考验在于能否找到Sora没发现的应用场景。一位投资人的判断是:「要么证明存在我们没看到的B端需求,要么接受这是一个昂贵的玩具品类。」
那位编辑最后提到一个细节:他的团队最近接了一个项目,客户明确要求「不得使用AI生成画面」。合同里的这条款,半年前还很少见,现在变成了标准条款的一部分。工具的价值终究由使用它的人定义——而当使用者开始警惕时,技术叙事就需要重新校准了。
下一个被砍掉的项目会是谁?
热门跟贴