图生视频出现“鬼畜”动作？即梦图生视频提示词定制，短剧感拉满|图生|张力|慢动作|短剧|静态图|鬼畜

最近一位做短剧内容的客户找到我，她用即梦做图生视频，把静态分镜转成视频片段，结果每一条出来都像慢动作默片：人物动作飘忽、表情僵硬，本来是激烈对峙的场面，出来的效果像两个人在梦游。她用的是直接把画面描述粘进去的通用做法，工具不知道她要的是短剧感，自顾自地生成了一堆“有气无力”的内容。

图生视频和文生图的逻辑不一样——静态图讲的是“画面里有什么”，视频讲的是“这5秒里发生了什么、怎么发生的”。

如果你把静态描述直接喂给视频工具，它只能在这个画面里微微颤动，制造出一种“活了但没完全活”的效果。你想要的短剧张力，工具根本感知不到，因为你没有在指令层面告诉它：速度是什么、力度是什么、每一秒要推进到哪里。

解决这个问题，需要在指令里做两件事：管住语言，管住节奏。我交付给她的指令，围绕两个设计：

第一个设计：强制禁止慢动作语言，建立动词替换规则。

这是整套指令里最直接有效的一刀。

很多人写视频描述的时候会下意识用“慢慢地走过来、缓缓转过身”这类词，这些词输进去，工具就会生成对应的慢动作效果。短剧的张力全靠节奏，慢动作是短剧的天敌。

我在指令里明确列了一条死规则：严禁出现“慢慢地、缓缓、静止”等词，必须替换成“猛地、瞬间、快速、突然”这类体现速度和力度的动词。同时要求所有动作必须是实时速度，像真实拍摄的短剧现场。

这条规则的作用不只是换几个词，它实际上是在给工具校准一个基准速度——告诉它这条视频的底色是什么节奏。

第二个设计：5秒分段动态逻辑，每一秒都要有进展。

这是这套指令的核心框架。

把5秒拆成5个1秒，每一秒都有明确的动作任务：第1秒是起势，动作要快；第2秒是爆发，幅度最大化；第3秒是交互推进，与环境或他人产生实质接触；第4秒是情绪高潮或动作转折；第5秒是余韵，保持动态而不是静止收尾。

这个逻辑的价值在于，它把“一段模糊的场景描述”变成了“一个可执行的动作时间表”。工具不需要自己猜这5秒该怎么分配，每一秒该发生什么都写清楚了，出片节奏自然稳。

配合这个框架，我还要求所有情绪描写必须“去形容词化”：不写“他很生气”，要写“眉头紧锁，鼻翼扩张，咬牙切齿”。情绪必须转化成可见的视觉动作，工具才能真正把它拍出来。

用了新指令之后，前后对比差距明显。旧方式输入的描述是这样的：愤怒的男人在雨中质问对方，情绪激动。AI工具收到这条描述，不知道速度、不知道节奏、不知道5秒里该发生几件事，出来的就是一个在雨里站着、偶尔动一下嘴的人物，看起来很“激动”但是没有落地成任何可见的动作。

新指令生成的分镜描述是这样的：

【暴雨对峙，压迫逼近】0-1s：男人猛然抬起头，雨水顺着脸颊快速滑落，眼神瞬间聚焦前方；1-2s：男人张大嘴巴怒吼，颈部青筋暴起，双臂猛地张开挥舞；2-3s：男人向前大跨一步，身体剧烈前倾，手指几乎戳到镜头；3-4s：男人胸口剧烈起伏，眼神死死锁住对方，不眨眼；4-5s：男人咬紧下唇，身体因情绪无法控制地颤抖，雨水在脸上飞溅。

同样是5秒，前者是一张会喘气的静图，后者是一条有张力、有层次、有短剧感的视频。

图生视频这个工具现在很多短剧团队都在用，但大多数人卡在“出来的东西没有短剧感”这一关，反复返工。

根本原因只有一个：提示词没有给工具提供节奏信息。速度、力度、每一秒的动作推进逻辑，这些东西不写进指令，工具只能给你生成一个“安全但无聊”的版本。

如果你也在用即梦或者类似工具做短剧内容，遇到了动作飘、节奏散的问题，不妨先检查一下你的提示词有没有把每一秒的动作任务写清楚。这个底层逻辑调整好了，出片质量会有明显变化。