一、AI短剧工具链:剧本→角色→分镜→合成
做短剧的传统方法是这样的:写剧本、找演员、搭场景、拍素材、后期剪辑,五道工序,至少三个人协作,耗时至少一周。
现在用AI工具链,一个人一台电脑,2-3小时就能从零到成品出片。
工具链的逻辑是这样的:
这套工具链的核心在于每个环节的输出都是下一个环节的输入,环环相扣,角色形象从第一帧到最后一帧保持一致。
做过AI视频的人都知道,最头疼的问题就是“换镜头就换脸”——同一个角色在不同分镜里长得完全不一样,观众一眼就能看出是AI生成的。接下来我会在每一步重点讲解如何解决这个问题。
二、Step 1:DeepSeek——让AI帮你写剧本和分镜(约15分钟)
做短剧的第一步是剧本。很多人让AI写剧本只会说“帮我写一个职场反转短剧”,出来的东西要么老套,要么没法落地。
问题出在提示词不够结构化。
DeepSeek生成短剧剧本,提示词需要包含五个层次(官网:chat.deepseek.com):
①角色设定层
告诉AI“你是谁”,让它在特定专业领域内思考:
text
你是一名专业的短剧编剧,擅长职场轻喜剧和反转剧情,熟悉抖音、快手短剧的快节奏叙事风格。②任务描述层告诉AI“做什么”,给出故事的基本框架:
text
请为我创作一部3分钟、6集的微短剧《提案反转局》。故事梗概:职场新人林悦的方案被资深同事抢功,在同事的帮助下逆风翻盘,最终获得总监认可。③人设定义层(最关键!)这是决定角色一致性的第一步。角色形象必须具体到可供AI生图使用:
text
请定义三个核心角色,每个角色的形象描述必须详细到可供AI生图使用:【林悦——女主角】- 24岁职场新人,干练短发,五官清秀有灵气- 日常穿搭:白色衬衫+高腰西裤,简约干练风- 关键特征:戴一副银色细框眼镜【张组长——反派女配】- 35岁资深组长,冷艳强势- 日常穿搭:黑色修身西装+红唇妆容- 关键特征:永远抱着一台银色笔记本电脑【王总监——决策者】- 45岁男性,温文尔雅但眼神锐利- 日常穿搭:深蓝色西装,不打领带- 关键特征:左手戴一枚简约腕表④分镜约束层告诉AI“怎么呈现”,明确输出格式和细节要求:
text
输出6集的分镜脚本表,每集30秒,表头必须包含:集数 | 镜头序号 | 景别 | 画面详细描述(供AI生图用) | 对白/旁白 | 时长(秒)画面描述要求:- 必须包含构图、人物动作、场景氛围、光影- 每个镜头必须标注出场人物- 示例:“中景,办公室内,林悦坐在工位上盯着电脑屏幕,神情专注,窗外夕阳余晖打在她的侧脸上,冷暖光对比明显”⑤格式要求层text
输出格式为Markdown表格,先输出“角色设定表”,再输出“分镜脚本表”。输出示例:DeepSeek生成的分镜脚本(部分展示)以下是将上述提示词输入DeepSeek后得到的实际输出样式,供大家参考格式和内容质量:
【角色设定表】
角色
形象描述
林悦
24岁职场新人,干练短发,五官清秀灵气,白色衬衫+高腰西裤,戴银色细框眼镜
张组长
35岁资深组长,冷艳强势,黑色修身西装+红唇妆容,永远抱着一台银色笔记本电脑
王总监
45岁男性,温文尔雅但眼神锐利,深蓝色西装不打领带,左手戴简约腕表
【分镜脚本表】(第1集:暗潮涌动,时长30秒)
镜头
景别
画面详细描述(供AI生图用)
对白/旁白
时长
1
中景
办公室内,林悦坐在工位上盯着电脑屏幕,神情专注,屏幕蓝光映在她脸上,窗外夕阳余晖打在她的侧脸,冷暖光对比明显。
(旁白)这个方案,我熬了三个通宵。
5秒
2
特写
电脑屏幕上显示着一份精美的PPT封面,标题“Q4品牌焕新方案”,右下角署名“林悦”。鼠标光标移动到署名处。
(无对白,仅键盘敲击音效)
3秒
3
中景
张组长从林悦工位后方走过,停下脚步,侧目瞥了一眼林悦的屏幕,嘴角微微上扬,眼神意味深长。
(无对白)
4秒
4
近景
林悦注意到身后有人,转头看向张组长,礼貌性地微笑点头。张组长已走开,只留下一个背影。
(无对白)
3秒
5
中景
会议室门口,张组长抱着一台银色笔记本电脑走进去,门缓缓关上。透过磨砂玻璃可见会议室内人影晃动。
(旁白)后来我才知道,有些人的“路过”不是偶然。
5秒
6
近景
第二天上午,林悦坐在工位上,神情困惑地盯着电脑。屏幕上是一封邮件,标题“关于Q4方案的最新安排”,发件人是王总监,正文模糊但可见“张组长负责”字样。
林悦:(内心独白)我的方案……怎么变成她的了?
6秒
7
中景
张组长站在会议室白板前,对着团队讲解方案,手指着白板上的PPT投影,表情自信。林悦的PPT封面“Q4品牌焕新方案”清晰可见,但署名已被替换为张组长。
张组长:(画外音)这个方案我从头到尾亲自抓的……
4秒
(第2-6集分镜脚本结构类似,此处受篇幅限制省略)
实操要点
- 人设定义一定要具体到发型、服饰、标志性特征,这些是后续豆包保持角色一致性的“锚点”。很多AI短剧翻车,根源就是这一步没做好。
- 画面描述不能只写“两人对话”,要写“林悦抬头望向张组长,眼神从紧张转为坚定,张组长站在会议桌对面双手抱胸冷笑”。
- 对白尽量简短有力,短剧的黄金法则是“3秒一个钩子,10秒一个小反转”。
- 单个分镜时长控制在3-6秒,这个时长范围AI生成效果最稳定,也方便后期调节奏。
三、Step 2:豆包——锁定角色形象,批量生成分镜图(约30-40分钟)
剧本有了,接下来要让文字变成画面。这一步是整个AI短剧制作最关键的一环——角色形象必须锁定,否则后面每帧都不一样。
豆包的Seedance 2.0版本针对多主体一致性问题做了底层优化,通过特征锁定算法确保角色服装、发型在不同镜头中保持稳定。
第1步:生成角色定妆照
将DeepSeek生成的角色设定依次输入豆包AI生图界面(官网:doubao.com),每个角色生成一张定妆照:
text
【林悦定妆照提示词】24岁职场女性,干练短发,五官清秀灵气,白色衬衫+高腰西裤,戴银色细框眼镜,坐在办公桌前,半身构图,柔和影棚光,商业人像摄影,4K超清,背景为现代化办公室浅景深虚化。比例:1:1正方形。三个角色各生成一张定妆照,从候选图中选出最满意的保存好——这是后续所有分镜画面的“角色种子”。
选图标准:
- 人物面部清晰,五官端正,没有变形
- 服饰细节完整,没有多余或缺失的元素
- 背景简洁,便于后续换场景时AI识别主体
- 光线柔和,不要过曝或过暗
这是核心步骤。DeepSeek已经输出了一份完整的分镜脚本表,现在需要把每个镜头的“画面描述”转化为实际图片。
操作要点(每个镜头都按这个流程操作):
- 上传参考图:在豆包生图界面点击“添加参考图”,上传对应角色的定妆照
- 编写完整提示词:将DeepSeek分镜表中的“画面详细描述”与参考图指令结合
示例(以上述脚本第1集镜头1为例):
text
参考上传的林悦角色形象,保持人物长相、发型、眼镜、服装完全一致。画面内容:中景,办公室内,林悦坐在工位上盯着电脑屏幕,神情专注,屏幕蓝光映在她脸上,窗外夕阳余晖打在她的侧脸,冷暖光对比明显。画面风格:电影写真,柔和自然光,4K超清。比例:9:16竖屏。- 每个镜头生成2-3张候选图,从中挑选最满意的一张
- 按“集数_镜头序号”命名保存(如“E01_S01.jpg”),方便后续剪辑时快速定位
多人镜头的处理方法:
两人对话场景需要特别处理。以林悦和张组长对话为例:
- 分别上传林悦和张组长的定妆照作为参考图
- 提示词中明确两人的位置关系:
text
参考上传的两个角色形象,保持两人的长相、发型、服装完全一致。画面左侧为林悦(白衬衫、银框眼镜),画面右侧为张组长(黑色西装、红唇)。两人隔着会议桌站立,林悦抬头望向张组长,眼神紧张,张组长双手抱胸,表情冷笑。背景为明亮会议室,窗外可见城市天际线。画面风格:电影感,写实摄影。比例:9:16竖屏。实操避坑- 角色长相出现偏移:检查是否每次生成都正确上传了参考图,并在提示词开头重申“保持长相完全一致”
- 手指等细节问题:AI画手是普遍难点。在提示词中写“手部自然放在键盘上”或“双手持文件遮挡”,不要写“手指张开”等描述
- 场景风格不统一:在DeepSeek脚本中预先固定场景描述模板,每个同场景镜头使用相同的关键词(如“现代化办公室,落地窗,灰色办公桌椅”)
- 光线不统一:在每个分镜的提示词中固定光线描述,如“柔和自然光”或“暖色顶光”,避免这个镜头用自然光、下个镜头用冷光灯
四、Step 3:即梦AI——静态分镜转动态视频(约40-60分钟)
分镜图准备好了,接下来要让画面动起来。即梦AI的“图生视频”功能可以将静态分镜图转化为3-6秒的动态镜头。
操作三步走
第1步:进入图生视频
打开即梦AI网页版(jimeng.jianying.com),点击“视频生成”,选择“图生视频”模式,选择Seedance 2.0模型。
第2步:上传参考图
选择豆包生成的某镜头画面作为首帧参考图。如果需要更精准的镜头运动控制,可以启用“首尾帧”功能:上传两张图分别作为镜头起始和结束画面,AI会自动生成中间过渡。
第3步:输入动态提示词
将DeepSeek分镜表中的“画面描述”改写为动态版本。改写公式:主体动作 + 环境变化 + 镜头运动 + 风格限定 + 时长 + 负面排除。
以第1集镜头1为例,DeepSeek的静态描述是:“中景,办公室内,林悦坐在工位上盯着电脑屏幕,神情专注。”
改写后的动态提示词:
text
基于上传参考图中的林悦角色形象和办公室场景,保持人物长相和场景完全一致。【主体动作】林悦盯着电脑屏幕,手指在键盘上快速敲击,表情从专注逐渐变为惊讶,眼睛微微睁大,眉毛轻微上扬,身体微微前倾靠近屏幕。【环境变化】屏幕蓝光微微闪烁映在脸上,窗外夕阳光线缓慢变化,画面中人物有轻微自然呼吸起伏,发丝有轻微晃动。【镜头运动】镜头缓慢推进,从人物中景逐渐推近到面部特写。【风格与时长】电影感运镜,写实风格,4K超清,3秒时长。【负面提示词】画面抖动,人物变形,脸部扭曲,动作僵硬,画面闪烁,背景扭曲。第4步:生成并筛选
点击生成,每个镜头建议生成2-3个版本,从中挑选效果最好的一条下载保存,按分镜序号命名(如“E01_S01.mp4”)。
实操要点
- 运镜幅度不要选“大”,短剧需要稳定的叙事节奏,过大运镜会让画面显得飘
- 动作描述要具体,不要写“她很惊讶”,要写“眼睛微微睁大,眉毛轻微上扬,身体微微前倾”。AI理解越具体,输出越精准。
- 对白较多的镜头,先用即梦生成无声动态画面,对白部分留到剪映中用AI配音补上
- 每个镜头时长控制在3-5秒,这是Seedance 2.0效果最稳定的范围
- 关于积分:即梦AI基础版日常使用基本够用,超出部分可考虑升级会员或按需购买积分
所有分镜视频准备好后,最后一步用剪映专业版合成(电脑桌面端)。
第1步:导入素材并排序
- 打开剪映专业版,点击“开始创作”
- 按分镜序号依次导入即梦生成的所有动态镜头
- 在时间轴上按剧情顺序排列好所有镜头
- 点击顶部菜单栏的“文本”→“新建文本”
- 输入DeepSeek生成的对白/旁白
- 选中文本,点击“文本朗读”
- 挑选符合角色性格的音色:
- 林悦(年轻女性):知性女声/温柔女声
- 张组长(强势女性):冷峻女声/成熟女声
- 王总监(男性):沉稳男声/磁性男声
- 旁白:解说男声/叙事女声
调整每个镜头的时长,让对白与画面节奏匹配:
- 单人说话时,镜头停留时间等于对白时长
- 对话场景中,切换镜头的时间点应放在每句对白开始前约0.3秒
- 情绪转折处可以适当增加0.5-1秒的停顿,让情绪沉淀
添加背景音乐:
- 点击“音频”→“AI音乐”
- 输入场景情绪关键词(如“紧张 职场 轻快”“反转 戏剧性 高潮”)
- 从AI生成的候选音乐中选择一条
- 选中音乐轨道,点击“自动踩点”,剪映会自动在波形上标记黄色鼓点
添加音效:
在“音频”→“音效”中搜索添加:
- 环境音:办公室键盘声、打印机声、咖啡杯放下声
- 情绪音效:惊讶时的“叮”、紧张时的鼓点、反转时的“轰”
添加转场:
- 同一场景内对话:用“叠化”或“淡入淡出”(持续0.3-0.5秒)
- 场景切换:用“闪白”或“快速模糊”
- 情绪反转处:用“闪切”或干脆不用转场(硬切更有冲击力)
添加字幕:
- 点击“文本”→“智能字幕”→“识别字幕”,剪映会自动识别配音并生成字幕
- 手动检查并修正识别错误的文字
- 在字体样式中搜索“职场”“现代”“极简”等关键词,选择与视频风格匹配的字幕样式
- 拖动素材边缘,让画面切换对准AI踩出的黄色鼓点
- 情绪高潮处的镜头切换建议卡在重鼓点上
- 点击“调节”,对第一个镜头调色后,点击“应用到全部”,统一所有镜头的色调
- 分辨率:1080p
- 帧率:30fps
- 码率:更高
- 导出前务必全片预览一遍,检查字幕是否同步、角色在不同镜头间形象是否保持稳定
- 剪映AI配音非常适合新手,零门槛、一体化,无需在多个软件间切换就能快速产出作品
- 如果某个镜头的对白与画面节奏不匹配,可以返回即梦重新生成该镜头(缩短或延长时长),或者用剪映的变速功能微调
- 音效不要贪多,3分钟短剧控制在8-12个音效即可,太多了反而显得杂乱
翻车现象
原因
应对策略
换镜头就“换脸”
未正确使用参考图
每个分镜生成前上传角色定妆照,提示词首句重申“保持长相完全一致”
多人镜头中角色错乱
参考图未被AI正确识别
分别上传多人参考图,提示词中明确标注“画面左侧为角色A,右侧为角色B”
场景风格不一致
不同分镜的场景描述有差异
在DeepSeek脚本中预先固定场景描述模板,同场景镜头使用相同的场景关键词
视频画面抖动/扭曲
运镜幅度过大
选择“中等”幅度,负面词中排除“画面抖动”
人物动作僵硬
动作描述不够具体
用具体动词描述动作(如“微微抬头”而非“动一下”),包含幅度和速度信息
对白与口型不同步
AI生成画面与配音独立进行
剪映中手动调整镜头时长,允许0.2-0.5秒误差,观众注意力在对白内容上不会太关注精确对口型
画面闪烁
光影描述不稳定或AI生成bug
固定每个场景的光线描述词,闪烁严重的镜头重新生成
七、工具链与积分参考
环节
工具
核心任务
日常使用情况
DeepSeek
剧本+分镜脚本
完全免积分,不限次数
豆包
角色定妆照+批量分镜图
每日赠送基础额度,日常使用够用
即梦AI
分镜转动态视频
每日赠送积分,基础版日常够用;超出可升级会员
剪映
剪辑+配音+合成
基础功能免积分,桌面版导出无水印
工具链速查: DeepSeek(剧本+分镜): chat.deepseek.com 豆包(角色定妆照+批量分镜图): doubao.com 即梦AI(分镜转动态视频): jimeng.jianying.com 剪映(剪辑+配音+合成):电脑桌面版
2026年,AI短剧已经从“专业团队的专利”变成了“普通人的日常工具”。剧本、角色、画面、配音、剪辑,整条链路上的每一个环节都有国产AI工具可以承担。
但工具再好,创意和审美才是决定一部短剧能不能火的核心。DeepSeek能写出及格剧本,但“这个反转够不够意外”需要你来判断;豆包能生成角色画面,但“这个形象讨不讨喜”需要你来把关;即梦能生成动态画面,但“这个情绪到不到位”需要你来审视。
AI负责效率,你负责质量。会写提示词、会用工具链、会做人工判断的人,才能把AI从“娱乐玩具”变成“生产力工具”。
热门跟贴