做 AI 视频,真正卡住大家的从来不是 模型,而是 分镜 。

—— AI视频

大家好啊,我是甲木。

最近被很多人问同一个问题:用 AI 生成视频的时候,分镜到底该怎么做?

这个问题问得很实在。因为做过几条 AI 视频之后,你会发现一件事,决定一条 AI 视频高下的,模型只是一方面。

但模型再强,能听懂「赛博朋克城市夜景」,却听不懂你心里那条片子的节奏。你要的是 0—3 秒推近、3—7 秒切人物、7—12 秒爆点定格,而这些内容,我们大多数人其实并不完全懂……

这部分工作有个名字,叫分镜。

过去半年我跑过的所有 AI 视频工具,分镜这件事基本上都是用户自己搞定。你得自己拆镜头、自己写每一镜的 prompt、自己抽卡 N 次、自己拼。在「即梦」里调用 Seedance 2.0 出一条 30 秒的视频,光是分镜 prompt 就要手搓五六条,很累。

直到我前几天用 OiiOii 拍了一支 100 秒的《剑来 · 剑气长城》先导预告片,发现:分镜这件事,OiiOii 把最难的那部分自动化了。

打开网易新闻 查看精彩图片

我先把成片放上来。

VIDEO

剑气长城先导篇成片

当然这个片子并不完美,它还有很多值得优化的点,但这是一次性跑出来的。

OiiOii 这个工具,它是「全球首个专业级动画创作 Agent」,当时在开放内测初期我就体验过,但是之后一直忙别的事情,现在它们也接入了满血版的 Seedance 2.0,体验了一段时间后,终于可以给大家分享分享使用心得了。

打开网易新闻 查看精彩图片

下面讲讲这条片子怎么做出来的。

本文看点

01

出片前要做的三件事

02

100 秒预告片全流程

03

分镜自动化的意义

01

PREPARATION

AI 视频生成前应该做什么?

STEP 01选题

第一件事就是选题,选这个题不是随机的。

一方面当然是爱好,另外一方面《剑来动画第二季刚刚大结局,第三季官方方向是「剑气长城」篇,这个设定,是整个《剑来》世界观最具视觉冲击的部分。三层世界要在 100 秒里同时铺开。

「剑气长城本身」(银白剑光,万丈剑墙、剑形巨门、城上嵌古剑)、「蛮荒天下」(暗红血色,妖族军团与妖王对峙)。

这三层切换,加上主角内心、对手登场,75 秒里要塞下这么多东西,是考验「分镜玩法」的一个不错的场景。

STEP 02剧本

第二件事是剧本,可以生成一个大体的剧本和故事线,然后让 OiiOii 自动去进行分镜。

STEP 03角色一致性

第三件事是为了保证动画角色的一致性,我先通过个人角色资产库,生成《剑来》动画三个核心人物的角色画面,然后都可以放到我的这个资产库里面。

打开网易新闻 查看精彩图片

— 形象仅供参考,交流学习使用

陈平安、宁姚、剑妈。直接固化了三个形象参考。

打开网易新闻 查看精彩图片

— 形象仅供参考,交流学习使用

我的起手剧本只有一段散文式描述 :

打开网易新闻 查看精彩图片

PROMPT · 起手剧本

仙侠史诗级先导预告片,致敬腾讯视频《剑来》第三季「剑气长城」篇章。整体风格:剑气水墨风 + 东方仙侠 + 电影级宏大叙事 + 水墨粒子特效。氛围:苍茫、壮阔、孤独、决绝。色彩基调:青灰主色 + 赭石点缀 + 银白剑光 + 蛮荒一侧的暗红血色。

加上提前在资产库里建好的两个角色,「陈平安」和「宁姚」。

剩下的事,全是 OiiOii 自己干的。

02

PROCESS

100 秒 AI 预告片生成全流程

整个流程,从一句话剧本到完整成片,实际耗时大约半小时

具体怎么做到的?这里挑三个最关键的环节展开讲:「内容策略」「分镜师 + 分段式手搓」以及「一次内容安全策略小事故」。

PART 01内容策略 ── 从一句话到 5 个核心空镜

剧本输入之后,第一个登场的是「艺术总监」。

它会问你三个参数:影片比例、对白语言、影片时长类型。全部选项化,鼠标点一下确认就完。

打开网易新闻 查看精彩图片

参数锁定之后,艺术总监把任务移交给「场景设计师」。

场景设计师做的第一件事,是把 75 秒剧本自动拆出5 个核心空镜场景:剑气长城远景、剑形城门、城内市井长街、城头碑林长廊、蛮荒天下揭示。

打开网易新闻 查看精彩图片

这一步我想强调一下。它从全局视角判断这条片子的视觉骨架在哪里。剧本里没有明说「剑形城门要单独成一个场景」,但场景设计师拆出来了。因为它知道这是一支预告片,必须有「仪式感单镜」,这是「导演活」,之前我以为 AI 顶多能做「翻译活」。

接下来是风格库。OiiOii 内置了 159 种风格 :古风水墨、皮克斯 3D、王家卫港片、赛博朋克都有。我没从风格库里挑,直接把「陈平安」角色资产作为风格锚点,一锁定,整支片子的视觉调性就定了。这是一个很妙的设计:用角色锁风格,比用关键词锁风格更稳。

打开网易新闻 查看精彩图片

— 当然,这块我的「剑气长城」城门设置是不符合小说设定的哈哈哈哈

5 个场景的主图 + 多视图全部自动生成,单镜耗时不到一分钟。

这一段如果让我手搓,光是写 5 个场景的提示词就够搓一上午。

PART 02分镜师 + 分段式手搓 ── 分镜玩法的灵魂

接下来是真正的重头戏。

「分镜师」上场之前,会先问你一个关键选择题:分镜方案要「多图参考」还是「宫格图」?

A多图参考:根据场景图和角色图直接生成视频,更快、更便宜、更流畅

B宫格:从分镜图开始,更可控、更专业

打开网易新闻 查看精彩图片

这两个选项的存在,本身就说明 OiiOii 想清楚了一件事:同一个工具要兼容「自动挡」和「手搓挡」两类用户。预告片这种需要精确控制的场景,我选了宫格图,多花一点时间换可控性。

然后分镜师做了一件让我有点意外的事:它把我原本写的 10 个镜头框架,自动合并成了 7 个。

打开网易新闻 查看精彩图片

合并逻辑它会告诉你:「远景下沉」和「赤足走近」合并为分镜 1(避免过于细碎),「宁姚出现」和「陈平安拔剑」合并(通过人物气场感应推动高潮)。这种判断属于「导演活」。

更妙的是「宫格分配」。4 格还是 9 格,由信息密度决定

打开网易新闻 查看精彩图片

· 分镜 1(荒原远景 + 赤足跟拍)信息密度中等,给 4 格

· 分镜 3(铸剑铺 / 酒肆 / 练剑场 / 老剑修 / 主角穿行)信息密度极高,给 9 格

· 分镜 5(蛮荒天下揭示:焦土 + 血海 + 战舰 + 妖军 + 妖王)多层揭幕,给 9 格

手搓的话,你得自己判断哪一镜该几格、自己排版、自己生成、自己抽卡。OiiOii 把这一整套判断逻辑前置了。

宫格图确认之后,分镜师为每个分镜生成了三类提示词

VIDEO「视频运镜提示词」(0—1.5s / 1.5—3.3s 这种分秒级标注)

AUDIO「音频音效提示词」(同样分秒级,环境音 + 拟音 + 节奏点)

LINE「台词提示词」

IMAGE

打开网易新闻 查看精彩图片

OiiOii 细节展示图

这是 OiiOii 把 Agent 底牌全亮给用户的诚意。你看到 Agent 写出来的每一段 prompt,然后可以再改任意一段。

「这就是 OiiOii 和『即梦』最不一样的地方。」

我之前在即梦里调用 Seedance 2.0,要做一支同样长度的片子,分镜全部要手写。每个镜头的画面、运镜、光线、音效、节奏,全部你自己 prompt 一遍。一支 30 秒的视频,光 prompt 就得花一小时。

而 OiiOii 这边,分段式提示词全部由 Agent 自动生成。我可以接受默认,也可以挑出某一段单独改。比如已生成的镜头还可以再次展开操作「宁姚跟陈平安对视,剑妈也出现在眺望远方」等等,剩下的它会自己处理。

打开网易新闻 查看精彩图片

可看操作流程视频:

VIDEO

操作流程视频

「Agent 自动跑」和「人工手搓」可以同时存在。

这个才是 AI 协同的定义。

7 个分镜全部跑通,单镜视频生成约一分钟一支,全程用满血版 Seedance 2.0 Pro 720p。不排队,多镜并发。

PART 03保障权益 ── 内容安全策略

讲一段意外。这一段反而是产品稳不稳的试金石。

分镜 3(城内市井长街)和分镜 7(千剑共鸣高潮)生成的时候触发了内容安全策略,模型返回了 PolicyViolation 警告,触发了一些安全警告,这是做 IP 同人内容时的常见雷区,毕竟陈平安在动画里有官方建模参考。

打开网易新闻 查看精彩图片

OiiOii 的处理方式,有几个细节让我觉得这个产品是认真做过的:

✓ 明确告知触发原因

✓ 给出三个具体方案

✓ 重试不扣 Credit

✓ Agent 主动调整 prompt

我点了「修改提示词重试」之后,分镜师自己读取了原始角色信息,把「长发高束、穿着带毛领深色古装且肩缠麻绳的清冷俊秀青年」作为代称重写了 prompt,避开了直接引用 IP 角色的描述。

这一段我专门写出来,并非为了找产品 bug。AI 视频工具出错很正常,关键看出错之后是怎么处理的。OiiOii 这套「告知原因 + 给方案 + 不扣钱 + Agent 自己改 prompt」的反馈机制,比单纯一句「重新生成」要专业得多。

使用 AI 工具最怕的就是「黑箱」啊……

PART 04收尾 ── 音效总监 + 一键合成

最后两步快进。

「音效总监」接手,根据全片基调用 Suno 生成了一段东方仙侠史诗 BGM,史诗管弦 + 水墨意境的混合质感,节奏卡在 7 镜的情绪起伏上。

打开网易新闻 查看精彩图片

「艺术总监」回到群聊收尾,1280 × 720 分辨率,7 个分镜 + BGM 自动对齐合成成片。

完整过程如下:

VIEDO

OiiOii 剑来展示图

导出。结束。

怎么样,是不是比较省心一些?

POINT 01把分镜最难的部分自动化了

你不需要去别人的工作流里扒提示词、抄分镜表。一句话剧本进去,自动拆出空镜场景 + 分镜数量 + 单镜提示词 + 宫格图。全套出片骨架,不到 5 分钟。

POINT 02把 Agent 底牌亮出来了

分段式提示词全部可见,每一镜的视频 / 音频 / 台词三类 prompt 分秒级标注。你既可以全自动跑,也可以挑某一段单独手搓。这就是「Agent 与手搓」完美结合的产品形态,两种用户都能接住。

打开网易新闻 查看精彩图片

POINT 03镜头可拆分、分镜可重组

已生成的镜头可以再次展开拆成子镜,可以改提示词、改模型、改画布比例。

多个分镜可以任意勾选组合生成新内容。这是 99% 的 AI 视频工具都没做的事。

写到这,感觉传统 AI 视频工具跟 OiiOii 就像是手动挡和自动挡的区别似的,一旦尝试,就回不去了 hhh。

FINAL THOUGHTS

结语

回到开篇那个问题:「用 AI 生成视频的时候,分镜该怎么做?」

我现在的答案是:这件事,你或许不用做了。

做 AI 视频走到 2026 年,模型已经不卡了,真正卡住大家的,一直是分镜这道工序。手搓五六条 prompt、抽卡到凌晨、镜头之间还各种不连贯。

「OiiOii 给的答案很简单:Agent 做骨架,你只管讲故事。」

一句话起手,半小时成片,「想到什么就先跑一支看看」从此变成默认。

好视频的本质在分镜,

而 OiiOii 把分镜里最难的那一段,接住了。

以上。

打开网易新闻 查看精彩图片

我是甲木,热衷于分享一些 AI 观察,AI 干货内容,同时也会分享 AI 在各行业的落地应用。

如果你觉得今天这篇有收获,欢迎点赞、在看、转发三连,我们下期再见