OpenAI砍掉Sora：5个月烧掉千万GPU，迪士尼先跑了|Sora(公司)|gpu|openai|sora|华特迪士尼公司|算法

12个月前，Sora的演示视频让全网沸腾。12个月后，OpenAI悄悄关闭了这个项目，迪士尼提前终止了合作。一位从业5年的视频编辑花了整整一年测试市面上所有AI视频工具，他的结论很直白：那些看起来最酷的功能，恰恰是专业用户最用不上的。

这不是事后诸葛亮。2024年2月Sora首次亮相时，4K分辨率的东京街头、光影流转的咖啡杯、人物自然的微表情——这些Demo确实惊艳。但Demo和交付物之间的距离，比很多人想象的要远得多。

今年1月，这位编辑接了一个产品演示片的活儿。客户要求10秒镜头，主角是同一个人，场景连贯。他用Sora生成了40遍。40遍。没有两次结果能让主角的脸保持一致，灯光在画面中间突然变冷又变热。最后他放弃了，改用传统拍摄。

40次生成换不来一张能用的脸

这个问题不止Sora有。Runway Gen-3、快手的可灵3.0、Pika，全都在同一个坑里摔过。文本生成视频（text-to-video）的概念听起来像魔法——输入一句话，输出一段影像。但专业编辑的工作流程恰恰相反：他们手里已经有素材了，需要的是处理这些素材的工具，而不是凭空造一段新画面。

更隐蔽的成本在算力端。Sora每次生成都在消耗GPU资源，而OpenAI的核心业务是语言模型。当一项副业每天烧掉数百万美元的推理成本，却没人愿意为它付费时，财务报表会说话。一位接近OpenAI的知情人士透露，Sora的日均推理开销在高峰期接近ChatGPT的15%，但付费转化率不到后者的1/50。

护城河的问题同样致命。Google的Veo 2、Runway的迭代版本、可灵的快速跟进——这个赛道拥挤得惊人。Sora有先发热度，却没有先发优势。等它真正对外开放时，市面上已经有价格更低、效果相当的替代品。迪士尼的退出决定 reportedly 发生在2024年第四季度，比公开消息早了至少两个月。

「我们测试了Sora的API集成，但无法保证角色一致性。对于需要跨季度出现的IP角色，这是致命缺陷。」

一位参与迪士尼评估流程的技术负责人这样解释。IP角色的视觉一致性是影视工业的基础要求，而生成式AI在这个维度上至今没有可靠解决方案。

真正省时间的，是那些「无聊」功能

有趣的是，当所有人盯着生成式AI的炫技Demo时，另一类工具已经悄悄重构了视频编辑的工作流。它们不生成画面，只处理现有素材——但省下的时间却是真实的。

自动转录和字幕。这位编辑以前花45分钟手动敲完10分钟采访的字幕，现在30秒出稿，准确率95%以上。仅此一项，比他试用过的所有生成工具加起来都管用。

脚本标记粗剪。采访类内容的典型场景：3小时原始素材，按脚本找对应片段。以前一个下午的工作量，现在输入脚本就能自动匹配。不是完美匹配，但足够把筛选时间压缩到20分钟。

多机位色彩匹配。两台相机色温偏差是现场拍摄的常态，以前每场景调20分钟，现在AI秒出基准，85%的情况直接可用。剩下15%手动微调，但这个比例意味着真正的效率提升。

智能音频清理。这位编辑提了一个具体案例：客户在施工场地旁边录采访，两年前这种素材只能作废。现在过一遍降噪，听感接近演播室。背景里的电钻声被识别为「非人声频率」并压制，而人声的齿音和呼吸感保留了下来。

这些功能没有Sora Demo的视觉冲击力，但它们解决的是真实存在的痛点。更重要的是，它们建立在确定性输出上——编辑知道工具能做什么、不能做什么，可以据此规划工作流。而生成式AI的不可预测性，让它在专业场景中难以被信任。

NemoVideo们为什么选了一条「笨」路

一些工具开始明确转向这个方向。NemoVideo（原称Nemo）的产品迭代轨迹很有代表性：早期尝试过文生视频功能，2024年下半年全面转向「AI辅助编辑」定位。他们的最新版本砍掉了文本生成模块，强化了多机位同步、语音分离、自动标记等传统环节的自动化。

这个决策的代价是失去「AI视频」赛道的媒体热度，但换来了实际的用户留存。据第三方数据平台Sensor Tower统计，NemoVideo的专业订阅用户月均使用时长在2024年Q4同比增长210%，而同期Runway的该指标下降17%。

另一个信号来自Adobe。Premiere Pro的AI功能更新集中在三个领域：语音转文本、场景编辑检测、色彩自动匹配。全是「无聊」应用，没有一个涉及画面生成。Adobe的年度创意大会Max 2024上，生成式AI被明确区分为「Firefly产品线」，与核心编辑工具保持物理隔离。

这种产品架构传递了一个判断：生成式AI更适合作为创意探索的 sandbox（沙盒），而非生产流程的 embedded（嵌入）组件。当编辑需要确定性输出时，传统算法的可控性反而更有价值。

「我花了6个月说服团队放弃在正片里用AI生成镜头。不是因为效果差，是因为我们无法向客户解释为什么第3版和最终版的主角长得不一样。」

一位广告公司的后期总监这样说。他的团队现在只在概念预演阶段使用生成工具，正式制作环节全部回归实拍或3D渲染。

算力重估与商业模型的坍塌

Sora的关闭还有一个技术经济层面的背景：视频生成模型的推理成本被系统性低估了。OpenAI内部曾有一个乐观预期，认为随着模型优化，单次生成的成本可以在12个月内下降90%。但实际进展远慢于预期，核心瓶颈在于视频数据的时序一致性——要让连续帧保持物理合理，需要的计算量远超静态图像。

一位前OpenAI研究人员的说法是，Sora的架构选择（基于Transformer的时空联合建模）在学术上优雅，但工程上昂贵。「每一帧都在重新计算全局注意力，这对于10秒视频意味着300次全量推理。」相比之下，Runway采用的扩散模型+光流补偿方案虽然理论上限较低，但单位成本可控得多。

这种成本结构直接决定了商业模式的可行性。Sora的定价曾试探性地定在每10秒视频0.5-2美元（按分辨率浮动），但实际运营成本是这个数字的3-4倍。OpenAI尝试过限制免费用户的生成时长、降低输出分辨率、排队机制等节流手段，但都没能扭转亏损。

更深层的问题是需求验证的失败。Sora团队原本假设存在大量「非专业用户需要专业级视频」的场景——小企业主做产品展示、教师制作课件、自媒体快速出片。但调研显示，这些用户要么对质量要求低到手机剪辑就能满足，要么对质量要求高到必须找专业团队。中间地带的市场规模，比预期小了一个数量级。

迪士尼的退出是最后一根稻草。这家娱乐巨头原本计划将Sora用于部分剧集的背景生成和概念验证，但试点项目的反馈是：美术部门需要的时间没有减少，反而增加了「生成-筛选-修正」的新环节。一位参与试点的视觉特效制片人描述：「以前我们画概念图，现在我们要生成40张概念图然后挑一张。总工作量没变，只是分配方式变了。」