一、AI短剧工具链:剧本→角色→分镜→合成

短剧的传统方法是这样的:写剧本、找演员、搭场景、拍素材、后期剪辑,五道工序,至少三个人协作,耗时至少一周。

现在用AI工具链,一个人一台电脑,2-3小时就能从零到成品出片。

工具链的逻辑是这样的:

打开网易新闻 查看精彩图片

这套工具链的核心在于每个环节的输出都是下一个环节的输入,环环相扣,角色形象从第一帧到最后一帧保持一致

做过AI视频的人都知道,最头疼的问题就是“换镜头就换脸”——同一个角色在不同分镜里长得完全不一样,观众一眼就能看出是AI生成的。接下来我会在每一步重点讲解如何解决这个问题。

打开网易新闻 查看精彩图片

二、Step 1:DeepSeek——让AI帮你写剧本和分镜(约15分钟)

做短剧的第一步是剧本。很多人让AI写剧本只会说“帮我写一个职场反转短剧”,出来的东西要么老套,要么没法落地。

问题出在提示词不够结构化。

DeepSeek生成短剧剧本,提示词需要包含五个层次(官网:chat.deepseek.com):

①角色设定层

告诉AI“你是谁”,让它在特定专业领域内思考:

text

你是一名专业的短剧编剧,擅长职场轻喜剧和反转剧情,熟悉抖音、快手短剧的快节奏叙事风格。
②任务描述层

告诉AI“做什么”,给出故事的基本框架:

text

请为我创作一部3分钟、6集的微短剧《提案反转局》。故事梗概:职场新人林悦的方案被资深同事抢功,在同事的帮助下逆风翻盘,最终获得总监认可。
③人设定义层(最关键!)

这是决定角色一致性的第一步。角色形象必须具体到可供AI生图使用:

text

请定义三个核心角色,每个角色的形象描述必须详细到可供AI生图使用:【林悦——女主角】- 24岁职场新人,干练短发,五官清秀有灵气- 日常穿搭:白色衬衫+高腰西裤,简约干练风- 关键特征:戴一副银色细框眼镜【张组长——反派女配】- 35岁资深组长,冷艳强势- 日常穿搭:黑色修身西装+红唇妆容- 关键特征:永远抱着一台银色笔记本电脑【王总监——决策者】- 45岁男性,温文尔雅但眼神锐利- 日常穿搭:深蓝色西装,不打领带- 关键特征:左手戴一枚简约腕表
④分镜约束层

告诉AI“怎么呈现”,明确输出格式和细节要求:

text

输出6集的分镜脚本表,每集30秒,表头必须包含:集数 | 镜头序号 | 景别 | 画面详细描述(供AI生图用) | 对白/旁白 | 时长(秒)画面描述要求:- 必须包含构图、人物动作、场景氛围、光影- 每个镜头必须标注出场人物- 示例:“中景,办公室内,林悦坐在工位上盯着电脑屏幕,神情专注,窗外夕阳余晖打在她的侧脸上,冷暖光对比明显”
⑤格式要求层

text

输出格式为Markdown表格,先输出“角色设定表”,再输出“分镜脚本表”。
输出示例:DeepSeek生成的分镜脚本(部分展示)

以下是将上述提示词输入DeepSeek后得到的实际输出样式,供大家参考格式和内容质量:

【角色设定表】

角色

形象描述

林悦

24岁职场新人,干练短发,五官清秀灵气,白色衬衫+高腰西裤,戴银色细框眼镜

张组长

35岁资深组长,冷艳强势,黑色修身西装+红唇妆容,永远抱着一台银色笔记本电脑

王总监

45岁男性,温文尔雅但眼神锐利,深蓝色西装不打领带,左手戴简约腕表

【分镜脚本表】(第1集:暗潮涌动,时长30秒)

镜头

景别

画面详细描述(供AI生图用)

对白/旁白

时长

1

中景

办公室内,林悦坐在工位上盯着电脑屏幕,神情专注,屏幕蓝光映在她脸上,窗外夕阳余晖打在她的侧脸,冷暖光对比明显。

(旁白)这个方案,我熬了三个通宵。

5秒

2

特写

电脑屏幕上显示着一份精美的PPT封面,标题“Q4品牌焕新方案”,右下角署名“林悦”。鼠标光标移动到署名处。

(无对白,仅键盘敲击音效)

3秒

3

中景

张组长从林悦工位后方走过,停下脚步,侧目瞥了一眼林悦的屏幕,嘴角微微上扬,眼神意味深长。

(无对白)

4秒

4

近景

林悦注意到身后有人,转头看向张组长,礼貌性地微笑点头。张组长已走开,只留下一个背影。

(无对白)

3秒

5

中景

会议室门口,张组长抱着一台银色笔记本电脑走进去,门缓缓关上。透过磨砂玻璃可见会议室内人影晃动。

(旁白)后来我才知道,有些人的“路过”不是偶然。

5秒

6

近景

第二天上午,林悦坐在工位上,神情困惑地盯着电脑。屏幕上是一封邮件,标题“关于Q4方案的最新安排”,发件人是王总监,正文模糊但可见“张组长负责”字样。

林悦:(内心独白)我的方案……怎么变成她的了?

6秒

7

中景

张组长站在会议室白板前,对着团队讲解方案,手指着白板上的PPT投影,表情自信。林悦的PPT封面“Q4品牌焕新方案”清晰可见,但署名已被替换为张组长。

张组长:(画外音)这个方案我从头到尾亲自抓的……

4秒

(第2-6集分镜脚本结构类似,此处受篇幅限制省略)

实操要点

  • 人设定义一定要具体到发型、服饰、标志性特征,这些是后续豆包保持角色一致性的“锚点”。很多AI短剧翻车,根源就是这一步没做好。
  • 画面描述不能只写“两人对话”,要写“林悦抬头望向张组长,眼神从紧张转为坚定,张组长站在会议桌对面双手抱胸冷笑”。
  • 对白尽量简短有力,短剧的黄金法则是“3秒一个钩子,10秒一个小反转”。
  • 单个分镜时长控制在3-6秒,这个时长范围AI生成效果最稳定,也方便后期调节奏。

打开网易新闻 查看精彩图片

三、Step 2:豆包——锁定角色形象,批量生成分镜图(约30-40分钟)

剧本有了,接下来要让文字变成画面。这一步是整个AI短剧制作最关键的一环——角色形象必须锁定,否则后面每帧都不一样。

豆包的Seedance 2.0版本针对多主体一致性问题做了底层优化,通过特征锁定算法确保角色服装、发型在不同镜头中保持稳定。

第1步:生成角色定妆照

将DeepSeek生成的角色设定依次输入豆包AI生图界面(官网:doubao.com),每个角色生成一张定妆照:

text

【林悦定妆照提示词】24岁职场女性,干练短发,五官清秀灵气,白色衬衫+高腰西裤,戴银色细框眼镜,坐在办公桌前,半身构图,柔和影棚光,商业人像摄影,4K超清,背景为现代化办公室浅景深虚化。比例:1:1正方形。

三个角色各生成一张定妆照,从候选图中选出最满意的保存好——这是后续所有分镜画面的“角色种子”。

选图标准:

  • 人物面部清晰,五官端正,没有变形
  • 服饰细节完整,没有多余或缺失的元素
  • 背景简洁,便于后续换场景时AI识别主体
  • 光线柔和,不要过曝或过暗
第2步:批量生成分镜画面

这是核心步骤。DeepSeek已经输出了一份完整的分镜脚本表,现在需要把每个镜头的“画面描述”转化为实际图片。

操作要点(每个镜头都按这个流程操作):

  1. 上传参考图:在豆包生图界面点击“添加参考图”,上传对应角色的定妆照
  2. 编写完整提示词:将DeepSeek分镜表中的“画面详细描述”与参考图指令结合

示例(以上述脚本第1集镜头1为例):

text

参考上传的林悦角色形象,保持人物长相、发型、眼镜、服装完全一致。画面内容:中景,办公室内,林悦坐在工位上盯着电脑屏幕,神情专注,屏幕蓝光映在她脸上,窗外夕阳余晖打在她的侧脸,冷暖光对比明显。画面风格:电影写真,柔和自然光,4K超清。比例:9:16竖屏。
  1. 每个镜头生成2-3张候选图,从中挑选最满意的一张
  2. 按“集数_镜头序号”命名保存(如“E01_S01.jpg”),方便后续剪辑时快速定位

多人镜头的处理方法:

两人对话场景需要特别处理。以林悦和张组长对话为例:

  1. 分别上传林悦和张组长的定妆照作为参考图
  2. 提示词中明确两人的位置关系:

text

参考上传的两个角色形象,保持两人的长相、发型、服装完全一致。画面左侧为林悦(白衬衫、银框眼镜),画面右侧为张组长(黑色西装、红唇)。两人隔着会议桌站立,林悦抬头望向张组长,眼神紧张,张组长双手抱胸,表情冷笑。背景为明亮会议室,窗外可见城市天际线。画面风格:电影感,写实摄影。比例:9:16竖屏。
实操避坑
  • 角色长相出现偏移:检查是否每次生成都正确上传了参考图,并在提示词开头重申“保持长相完全一致”
  • 手指等细节问题:AI画手是普遍难点。在提示词中写“手部自然放在键盘上”或“双手持文件遮挡”,不要写“手指张开”等描述
  • 场景风格不统一:在DeepSeek脚本中预先固定场景描述模板,每个同场景镜头使用相同的关键词(如“现代化办公室,落地窗,灰色办公桌椅”)
  • 光线不统一:在每个分镜的提示词中固定光线描述,如“柔和自然光”或“暖色顶光”,避免这个镜头用自然光、下个镜头用冷光灯

打开网易新闻 查看精彩图片

四、Step 3:即梦AI——静态分镜转动态视频(约40-60分钟)

分镜图准备好了,接下来要让画面动起来。即梦AI的“图生视频”功能可以将静态分镜图转化为3-6秒的动态镜头。

操作三步走

第1步:进入图生视频

打开即梦AI网页版(jimeng.jianying.com),点击“视频生成”,选择“图生视频”模式,选择Seedance 2.0模型。

第2步:上传参考图

选择豆包生成的某镜头画面作为首帧参考图。如果需要更精准的镜头运动控制,可以启用“首尾帧”功能:上传两张图分别作为镜头起始和结束画面,AI会自动生成中间过渡。

第3步:输入动态提示词

将DeepSeek分镜表中的“画面描述”改写为动态版本。改写公式:主体动作 + 环境变化 + 镜头运动 + 风格限定 + 时长 + 负面排除

以第1集镜头1为例,DeepSeek的静态描述是:“中景,办公室内,林悦坐在工位上盯着电脑屏幕,神情专注。”

改写后的动态提示词:

text

基于上传参考图中的林悦角色形象和办公室场景,保持人物长相和场景完全一致。【主体动作】林悦盯着电脑屏幕,手指在键盘上快速敲击,表情从专注逐渐变为惊讶,眼睛微微睁大,眉毛轻微上扬,身体微微前倾靠近屏幕。【环境变化】屏幕蓝光微微闪烁映在脸上,窗外夕阳光线缓慢变化,画面中人物有轻微自然呼吸起伏,发丝有轻微晃动。【镜头运动】镜头缓慢推进,从人物中景逐渐推近到面部特写。【风格与时长】电影感运镜,写实风格,4K超清,3秒时长。【负面提示词】画面抖动,人物变形,脸部扭曲,动作僵硬,画面闪烁,背景扭曲。

第4步:生成并筛选

点击生成,每个镜头建议生成2-3个版本,从中挑选效果最好的一条下载保存,按分镜序号命名(如“E01_S01.mp4”)。

实操要点

  • 运镜幅度不要选“大”,短剧需要稳定的叙事节奏,过大运镜会让画面显得飘
  • 动作描述要具体,不要写“她很惊讶”,要写“眼睛微微睁大,眉毛轻微上扬,身体微微前倾”。AI理解越具体,输出越精准。
  • 对白较多的镜头,先用即梦生成无声动态画面,对白部分留到剪映中用AI配音补上
  • 每个镜头时长控制在3-5秒,这是Seedance 2.0效果最稳定的范围
  • 关于积分:即梦AI基础版日常使用基本够用,超出部分可考虑升级会员或按需购买积分
五、Step 4:剪映——智能合成,AI配音+卡点剪辑(约30分钟)

所有分镜视频准备好后,最后一步用剪映专业版合成(电脑桌面端)。

第1步:导入素材并排序

  1. 打开剪映专业版,点击“开始创作”
  2. 按分镜序号依次导入即梦生成的所有动态镜头
  3. 在时间轴上按剧情顺序排列好所有镜头
第2步:AI配音
  1. 点击顶部菜单栏的“文本”→“新建文本”
  2. 输入DeepSeek生成的对白/旁白
  3. 选中文本,点击“文本朗读”
  4. 挑选符合角色性格的音色:
  5. 林悦(年轻女性):知性女声/温柔女声
  6. 张组长(强势女性):冷峻女声/成熟女声
  7. 王总监(男性):沉稳男声/磁性男声
  8. 旁白:解说男声/叙事女声
第3步:对齐画面与对白

调整每个镜头的时长,让对白与画面节奏匹配:

  • 单人说话时,镜头停留时间等于对白时长
  • 对话场景中,切换镜头的时间点应放在每句对白开始前约0.3秒
  • 情绪转折处可以适当增加0.5-1秒的停顿,让情绪沉淀
第4步:AI智能包装

添加背景音乐:

  1. 点击“音频”→“AI音乐”
  2. 输入场景情绪关键词(如“紧张 职场 轻快”“反转 戏剧性 高潮”)
  3. 从AI生成的候选音乐中选择一条
  4. 选中音乐轨道,点击“自动踩点”,剪映会自动在波形上标记黄色鼓点

添加音效:

在“音频”→“音效”中搜索添加:

  • 环境音:办公室键盘声、打印机声、咖啡杯放下声
  • 情绪音效:惊讶时的“叮”、紧张时的鼓点、反转时的“轰”

添加转场:

  • 同一场景内对话:用“叠化”或“淡入淡出”(持续0.3-0.5秒)
  • 场景切换:用“闪白”或“快速模糊”
  • 情绪反转处:用“闪切”或干脆不用转场(硬切更有冲击力)

添加字幕:

  1. 点击“文本”→“智能字幕”→“识别字幕”,剪映会自动识别配音并生成字幕
  2. 手动检查并修正识别错误的文字
  3. 在字体样式中搜索“职场”“现代”“极简”等关键词,选择与视频风格匹配的字幕样式
第5步:音画卡点与色调统一
  1. 拖动素材边缘,让画面切换对准AI踩出的黄色鼓点
  2. 情绪高潮处的镜头切换建议卡在重鼓点上
  3. 点击“调节”,对第一个镜头调色后,点击“应用到全部”,统一所有镜头的色调
第6步:导出
  • 分辨率:1080p
  • 帧率:30fps
  • 码率:更高
  • 导出前务必全片预览一遍,检查字幕是否同步、角色在不同镜头间形象是否保持稳定
实操要点
  • 剪映AI配音非常适合新手,零门槛、一体化,无需在多个软件间切换就能快速产出作品
  • 如果某个镜头的对白与画面节奏不匹配,可以返回即梦重新生成该镜头(缩短或延长时长),或者用剪映的变速功能微调
  • 音效不要贪多,3分钟短剧控制在8-12个音效即可,太多了反而显得杂乱
六、常见翻车场景及应对策略

翻车现象

原因

应对策略

换镜头就“换脸”

未正确使用参考图

每个分镜生成前上传角色定妆照,提示词首句重申“保持长相完全一致”

多人镜头中角色错乱

参考图未被AI正确识别

分别上传多人参考图,提示词中明确标注“画面左侧为角色A,右侧为角色B”

场景风格不一致

不同分镜的场景描述有差异

在DeepSeek脚本中预先固定场景描述模板,同场景镜头使用相同的场景关键词

视频画面抖动/扭曲

运镜幅度过大

选择“中等”幅度,负面词中排除“画面抖动”

人物动作僵硬

动作描述不够具体

用具体动词描述动作(如“微微抬头”而非“动一下”),包含幅度和速度信息

对白与口型不同步

AI生成画面与配音独立进行

剪映中手动调整镜头时长,允许0.2-0.5秒误差,观众注意力在对白内容上不会太关注精确对口型

画面闪烁

光影描述不稳定或AI生成bug

固定每个场景的光线描述词,闪烁严重的镜头重新生成

七、工具链与积分参考

环节

工具

核心任务

日常使用情况

DeepSeek

剧本+分镜脚本

完全免积分,不限次数

豆包

角色定妆照+批量分镜图

每日赠送基础额度,日常使用够用

即梦AI

分镜转动态视频

每日赠送积分,基础版日常够用;超出可升级会员

剪映

剪辑+配音+合成

基础功能免积分,桌面版导出无水印

工具链速查: DeepSeek(剧本+分镜): chat.deepseek.com 豆包(角色定妆照+批量分镜图): doubao.com 即梦AI(分镜转动态视频): jimeng.jianying.com 剪映(剪辑+配音+合成):电脑桌面版

2026年,AI短剧已经从“专业团队的专利”变成了“普通人的日常工具”。剧本、角色、画面、配音、剪辑,整条链路上的每一个环节都有国产AI工具可以承担。

但工具再好,创意和审美才是决定一部短剧能不能火的核心。DeepSeek能写出及格剧本,但“这个反转够不够意外”需要你来判断;豆包能生成角色画面,但“这个形象讨不讨喜”需要你来把关;即梦能生成动态画面,但“这个情绪到不到位”需要你来审视。

AI负责效率,你负责质量。会写提示词、会用工具链、会做人工判断的人,才能把AI从“娱乐玩具”变成“生产力工具”。