打开网易新闻 查看精彩图片

最近一位做短剧内容的客户找到我,她用即梦做图生视频,把静态分镜转成视频片段,结果每一条出来都像慢动作默片:人物动作飘忽、表情僵硬,本来是激烈对峙的场面,出来的效果像两个人在梦游。她用的是直接把画面描述粘进去的通用做法,工具不知道她要的是短剧感,自顾自地生成了一堆“有气无力”的内容。

图生视频和文生图的逻辑不一样——静态图讲的是“画面里有什么”,视频讲的是“这5秒里发生了什么、怎么发生的”。

如果你把静态描述直接喂给视频工具,它只能在这个画面里微微颤动,制造出一种“活了但没完全活”的效果。你想要的短剧张力,工具根本感知不到,因为你没有在指令层面告诉它:速度是什么、力度是什么、每一秒要推进到哪里。

解决这个问题,需要在指令里做两件事:管住语言,管住节奏。我交付给她的指令,围绕两个设计:

第一个设计:强制禁止慢动作语言,建立动词替换规则。

这是整套指令里最直接有效的一刀。

很多人写视频描述的时候会下意识用“慢慢地走过来、缓缓转过身”这类词,这些词输进去,工具就会生成对应的慢动作效果。短剧的张力全靠节奏,慢动作是短剧的天敌。

我在指令里明确列了一条死规则:严禁出现“慢慢地、缓缓、静止”等词,必须替换成“猛地、瞬间、快速、突然”这类体现速度和力度的动词。同时要求所有动作必须是实时速度,像真实拍摄的短剧现场。

这条规则的作用不只是换几个词,它实际上是在给工具校准一个基准速度——告诉它这条视频的底色是什么节奏。

第二个设计:5秒分段动态逻辑,每一秒都要有进展。

这是这套指令的核心框架。

把5秒拆成5个1秒,每一秒都有明确的动作任务:第1秒是起势,动作要快;第2秒是爆发,幅度最大化;第3秒是交互推进,与环境或他人产生实质接触;第4秒是情绪高潮或动作转折;第5秒是余韵,保持动态而不是静止收尾。

这个逻辑的价值在于,它把“一段模糊的场景描述”变成了“一个可执行的动作时间表”。工具不需要自己猜这5秒该怎么分配,每一秒该发生什么都写清楚了,出片节奏自然稳。

配合这个框架,我还要求所有情绪描写必须“去形容词化”:不写“他很生气”,要写“眉头紧锁,鼻翼扩张,咬牙切齿”。情绪必须转化成可见的视觉动作,工具才能真正把它拍出来。

用了新指令之后,前后对比差距明显。旧方式输入的描述是这样的:愤怒的男人在雨中质问对方,情绪激动。AI工具收到这条描述,不知道速度、不知道节奏、不知道5秒里该发生几件事,出来的就是一个在雨里站着、偶尔动一下嘴的人物,看起来很“激动”但是没有落地成任何可见的动作。

新指令生成的分镜描述是这样的:

【暴雨对峙,压迫逼近】0-1s:男人猛然抬起头,雨水顺着脸颊快速滑落,眼神瞬间聚焦前方;1-2s:男人张大嘴巴怒吼,颈部青筋暴起,双臂猛地张开挥舞;2-3s:男人向前大跨一步,身体剧烈前倾,手指几乎戳到镜头;3-4s:男人胸口剧烈起伏,眼神死死锁住对方,不眨眼;4-5s:男人咬紧下唇,身体因情绪无法控制地颤抖,雨水在脸上飞溅。

同样是5秒,前者是一张会喘气的静图,后者是一条有张力、有层次、有短剧感的视频。

图生视频这个工具现在很多短剧团队都在用,但大多数人卡在“出来的东西没有短剧感”这一关,反复返工。

根本原因只有一个:提示词没有给工具提供节奏信息。速度、力度、每一秒的动作推进逻辑,这些东西不写进指令,工具只能给你生成一个“安全但无聊”的版本。

如果你也在用即梦或者类似工具做短剧内容,遇到了动作飘、节奏散的问题,不妨先检查一下你的提示词有没有把每一秒的动作任务写清楚。这个底层逻辑调整好了,出片质量会有明显变化。