打开网易新闻 查看精彩图片

这是【德塔文·AI破局】专栏的高潮篇。昨天我们确立了“长线造世界”的宏大战略,今天我们来看最现实的账本。面对越来越贵的Token,还在盲目比拼“谁画得好”是极其危险的。

这个四月,AI视频赛道最热闹的一件事——一匹叫"欢乐马"的新模型突然屠榜,把字节的即梦从第一名挤下来。阿里几天后认领,说即将开源免费。而就在前一个月,即梦刚刚在一个月之内涨了三次价。

于是所有人都在讨论:欢乐马会不会取代即梦?可灵怎么办?开源会不会击穿闭源?短剧团队该换哪家?

我想说一句可能不讨喜的话——这场热闹,很多人正在看错方向。

打开网易新闻 查看精彩图片

图源:网络

真正值得警惕的事,不是谁更强,而是Token越来越贵。

即梦一个月涨三次价,不是字节心血来潮。是AI生成视频本身的算力账就算不过来。视频生成不像文字问答——你写一篇长文给大模型看,它再回你一两千字,这一来一回消耗的Token其实不算什么。但生成几秒钟的高质量视频,它在时间轴上要同时处理画面、运动、光影、物理、音频——单位时间的Token消耗是文本问答的几百倍甚至上千倍。

OpenAI那边更直接,3月24日一刀把Sora砍了。迪士尼十亿美元投资当场作废,两百多个超级IP授权协议全部归零。公告发出前半小时,迪士尼还在跟OpenAI开会聊合作。

Sora是世界上技术最好的视频模型之一。它死在哪儿?死在经济账上。用户愿意花几十块钱看AI生成的"孙悟空大战变形金刚",点赞完就走了,没有持续付费的理由。算力烧得起,订阅费收不回。

欢乐马这次选择开源,听起来很慷慨,但换个角度看——这也是一个"这条赛道的闭源商业模式还没走通"的信号。真正跑得通的生意,一般不急着开源。所以这场AI视频大战的表层叙事是"谁画得更好"。

但往下看一层,真正的问题是——靠生成视频当主业这件事,可能本身就是个过渡。

01

欢乐马值得看的不是视频,是世界

打开网易新闻 查看精彩图片

但欢乐马还是值得认真看。

不是因为它把谁挤下了榜,而是——它其实不是一个"视频模型",它是一个世界模型。这两个词听起来差不多,但差别很大。

视频模型解决的是"画面看起来像不像"。世界模型解决的是"这个东西在现实里该怎么运作"。欢乐马用一个统一的Transformer架构同时处理画面和音频,口型、脚步声、环境音在同一次推理里生成;支持七种语言的唇形同步;长时序稳定性比前几代显著提升——这些能力的本质,不是"我能画出一段看起来像视频的东西",是"我开始理解人说话时嘴怎么动、人走路时脚怎么踩地、声音在空间里怎么传"。

这不是绘画能力的升级,是对物理世界的建模能力的升级。

世界模型这个方向,在学界这两年其实很热。Yann LeCun一直在推他的V-JEPA,DeepMind今年发了Genie 3,英伟达做了Cosmos——路径略有不同,但方向是一致的:让AI不止于生成内容,而是学会这个世界的运作规律。

这才是欢乐马真正站位的赛道。它表面上跟即梦在争"谁画得好",底下站着的其实是另一个问题——谁先把这个物理世界学明白。

这个差别,对不同类型的内容公司意义完全不一样。

打开网易新闻 查看精彩图片

图源:网络

02

短剧不需要世界,长剧离不开世界

打开网易新闻 查看精彩图片

先说短剧。

短剧的用户画像很清楚——碎片时间、情绪刺激、几分钟解决问题。观众不会在一个短剧里深究"这个角色的动作轨迹是否符合物理"或者"这个场景的光影是否一致"。他们要的是爽点密集、节奏快、画面够看。

对这种需求,视频生成模型就够了。画面看起来像、能撑住几分钟的注意力,就能变现。Token贵怎么办?一边涨价一边压成本——用低分辨率版本、用开源版本、用参数更少的模型、用AI漫剧替代AI真人剧。短剧的AI用法,本质上就是把它当成一个高效的打工人——又快、又便宜、又不罢工。

这条路是走得通的。AI短剧这一年的数据已经说明问题:AI仿真人短剧在百强榜里的占比从去年的7%飙到今年的38%,单分钟成本从万元级压到一两千元,一年超百亿的市场规模。这是一门清清楚楚的生意。

长剧不一样。

长剧的观众要的不是"看几个爽点",是"进入一个世界几十个小时"。他们会盯着角色的动作一致性、场景的空间连贯性、人物关系的逻辑闭环、世界观的完整程度。

这是对"世界"的要求,不是对"画面"的要求。

你用视频生成模型凑一部短剧能过关,凑一部长剧凑不下来。因为长剧的本质是——一段复杂的故事,发生在一个相对完整的世界里。短剧可以是世界的一个快照,长剧必须是这个世界在一段时间里的完整展开。

这就是为什么我说,长剧公司对AI的用法,应该跟短剧公司根本不一样。

短剧把AI当打工人——让它干活。长剧要把AI当合伙人——让它帮你想事。

03

让AI帮你想事,比让它画画更值钱

打开网易新闻 查看精彩图片

“让AI帮你想事"这句话听起来虚,但它指的是一整套具体的东西——让AI帮你在剧本阶段识别雷区。一个人眼会漏掉的宗教冲突、政治敏感、逻辑硬伤,AI在几分钟内可以扫一遍,提前把风险点标出来,让你决定改不改。

让AI帮你沉淀调性。一家公司做了十年剧,手里有几百万字的剧本、几千小时的成片、无数次的审片意见。这些东西如果只是堆在硬盘里,什么都不是。但如果你用AI做成一套可检索、可复用的提示词体系,它就成了这家公司独有的"味道"——下一部戏用得上,下下部戏还用得上。

让AI帮你协调世界观。一个长剧拍到三四十集,演员、美术、摄影、后期、剪辑之间经常出现调性漂移——这场戏这样演,下一场戏那样演,观众看了出戏。AI如果能把整个世界观参数化,可以实时告诉每一个环节"这场戏在这个世界里该是什么质感"。

让AI帮你在开拍前就看到成片。用AI先把关键场景的走位、光线、镜头语言预演一遍,团队提前达成一致再下场拍——减少的是拍摄现场的扯皮时间,省的是真金白银的制片成本。

打开网易新闻 查看精彩图片

图源:网络

这些事,没有一件是"让AI生成画面"。每一件都是"让AI处理复杂信息、做判断、沉淀经验"。

而这种用法对Token的消耗——恰恰是合理的。

因为"画画"这件事是高频、低单价的活。你每天要生成几千个镜头,每一个镜头的决策价值不高,但消耗的Token巨大。Token越贵你越亏。

"想事"这件事是低频、高单价的活。你一部剧可能只做几十次关键决策,但每一次决策的价值是百万甚至千万级的——一次选题判断、一次风险识别、一次世界观对齐。这种场景下,Token贵一点贵得起。它处理的不是像素,是钱该怎么花、戏该怎么拍、世界该怎么长。

这就是为什么我一直说——Token越贵,AI反而越值钱。前提是你用它想事,不是让它画画。

04

世界模型之后,可能还要一个"事件模型"

打开网易新闻 查看精彩图片

写到这里,我想坦白一件事。

我前面讲世界模型讲得很顺,但其实影视行业需要的不止世界模型。

世界模型解决的是"这个世界怎么运作"——物理规律、人的动作、环境的响应。但影视讲的不是"一个世界",是"一段事情在这个世界里怎么发生"。

一个世界模型可以告诉你,这个人走进这个房间会发生什么物理反应、他说话嘴该怎么动、他打开门时光会怎么变化。但它告诉不了你——他为什么走进这个房间?他在这个房间里会发生什么样的一段故事?这段故事会怎么在接下来的二十集里延续?又会怎么被切成长剧版、中剧版、短剧版给不同的观众看?

这需要另一种东西。我暂时称它"事件模型"。

但说实话——这个概念我自己也还没完全想清楚。

它大概的方向是:不是模拟物理,是理解"一段事情"——怎么起、怎么承、怎么转、怎么合;怎么在一个世界观里保持连贯;怎么在不同媒介、不同时长、不同观众那里呈现出不同的切面;怎么被多次调用、多次展开、多次改编而不失真。

这件事现在还没有哪个产品能做到。学界也只有零星的雏形。我能说的只是——影视行业迟早需要它。因为我们这个行业的核心产品从来不是"画面",是"故事"。世界模型负责画面底下的物理,事件模型负责故事底下的逻辑。两个加起来,才撑得起一个活着的、能反复被切片的内容宇宙。

至于它具体长什么样、什么时候到、谁会做出来,我判断是两到三年内会出现比较清晰的雏形,但我不敢打包票。这篇文章里我坦诚告诉你——这部分是推测,不是判断。

05

所以回到开头那个问题

打开网易新闻 查看精彩图片

欢乐马大战即梦,在短剧圈是个大新闻。涨价也好、开源也好、屠榜也好——这些都是值得关心的事,但都是生产效率层面的事。

真正决定这个行业未来十年走向的,不在生产效率这一层。在更下面。

短剧把AI当打工人——这条路已经跑通了,接下来就是规模化和压成本的事。

长剧要把AI当合伙人——这条路还没有人完整跑通过,但它是长剧这个物种能不能穿越下一个十年的关键。

这两条路走的不是同一门生意。用它们的人也不该是同一群人。你如果在短剧公司,AI对你来说就是成本优化器,越便宜越好;你如果在长剧公司,AI对你来说应该是世界构建的合伙人,你付得起贵的Token,因为你不是在批量生产画面,你是在搭建能活十年的东西。

上一篇我说,做一部剧和做一个世界是两门生意。这一篇想补上一句——未来那个"世界",不是你一个人在搭。是你和AI一起搭。

你需要的不是一个更快的打工人,是一个能跟你一起想事的合伙人。

欢乐马和即梦的大战很热闹,但这只是这场更长故事的一个开场。真正的戏,在后面。

明天专栏收官之作,德塔文将用一家昔日影视巨头的惊天大坑,为你标出AI转型期的四个致命死穴。

撰稿:松风

责编:苏秦

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

设为星标,精彩内容不错过

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片