那些出圈的AI短片，都靠这个公式做出来的

沃垠AI

2026-06-16 14:23 ·四川 ·网易号优质内容创作者

大家好，我是冷逸。

最近你可能刷到过一些AI短片，比如《丧尸清道夫》、《万物生》、《零号档案》等。

它们有个共同的命运弧线：在国内发布，在海外出圈，然后“出口转内销”，被舆论推上聚光灯。

其中让我印象最深的是《丧尸清道夫》，被X上的大V「PJ Ace」转发后，播放量直接飙到1300万。

但比播放量更让我印象深刻的，是作者Mx-Shell说的这句话：

“创作过程中没有分镜图，也没有首尾帧，只用了资产图+脚本，分镜控制纯依赖手搓的脚本文案。整部片子由一个人独立完成，Token成本大概3000元，前后花了10天。”

这句话，非常坦诚，也非常直白。AI视频的本质，其实就是四个字：资产图+脚本。

资产图，解决主体一致性；脚本文案，控制剧情走向。

听起来简单，但这恰恰是很多人卡住的地方——不是工具不够用，而是不知道该喂什么给工具。

为了把“资产图+脚本”这个核心流程跑通，我做了一个skill，叫lengyi-shotlist，已开源放在GitHub上了，欢迎大家Star。

它干的事情很直接：你喂给它任意文本，比如一段小说节选、一句剧情描述、几个关键词，它会帮你完成两件事：

拆解/扩写成分镜脚本提示词：逻辑严密，字数严格控制在3000字以内（避免粘贴超限）。
自动生成资产图提示词：针对人物、物体、道具、场景等参考主体，自动设计文生图提示词。

也就是说，从“一段文字”到“可以直接喂进生图/生视频工具的完整提示词”，这个skill一次性搞定。

你要做的只有一件事：把它生成的内容，往工具里粘贴。

我用这个skill搭配Vidu最近推出的「多宫格创作」功能，做了几支视频，效果出乎意料地好。

它的逻辑非常清晰：

上传主体图（角色/道具/场景，建议用三视图保证一致性）
粘贴分镜脚本提示词
设置宫格数、时长、清晰度和画幅

就这三步，你得到的是一支有叙事结构、有镜头语言、主体前后一致的视频。

一致性、分镜设计、工作流，都帮你搞定了。剩下的，就回到了创意、结构和审美本身。

一手体验

下面，我从5个case详细讲起，教大家如何用这个skill跟Vidu配合。

1）重拍《三体》名场面

这是我最想拍的一个场景。

原著里，大刘用几百字写出了一段充满诗意的相遇：她（庄颜）站在客厅的门口，穿着一件淡蓝色的风衣，围着一条白色的围巾。她的头发披散着，不像画像上那样扎着辫子。但那双眼睛——那双让人心碎的眼睛，和画像上一模一样。

这段文字的难点在于：她的美，不是动作，而是来自于氛围。

我把原文段落直接丢给skill。

它会设计分镜总览：几个镜头、几秒、什么风格、什么场景。然后生成主体档案，出庄颜和罗辑的人物图提示词。

Ps，这个skill建议跟DeepSeek V4 Pro或Claude 4.6 sonnet/Opus 4.8/GPT-5.5搭配，干活效果更好。

接着，skill会出分镜脚本提示词，字数严格控制在3000字以内（避免粘贴超限）。

主体提示词，拿到任意生图工具里生成就行。我一共生成了3版庄颜，选了中间最贴近原著气质的那张。

有了主体参考图和视频脚本提示词，接下来我们前往vidu.cn生成视频。找到「多宫格创作」，点击进入。

简单认识一下这个界面，在上面上传主体，中间粘贴分镜提示词，下面调整分镜、时长、清晰度和画幅参数。

主体，支持上传图片（三视图）、视频和文本。为了更好的一致性，建议上传图片。

我已经传了庄颜和罗辑的人物图，接下来输入分镜提示词，选12宫格（即分镜）、14s。

它会按照12宫格生成视频。

来看下最终成片。

大家也帮忙看看，这是你理想中的庄颜吗？

继续依样画葫芦，得到了第二个场景的视频。

罗辑特别注意到这里一幅风景画都没有，这是很成熟的审美情调：这幢房子就坐落在绝美的伊甸园中，风景画挂在这里就像在大海中加一桶水那样多余。

他们首先走进的是卢浮宫最大的展厅，有二百米长，这里光线柔和，脚步声在空旷中回荡。罗辑很快发现只有他的脚步声，庄颜在轻轻地走路，猫一样无声，如同一个初入童话中神奇宫殿的孩子，怕吵醒这里沉睡的什么东西。

罗辑放慢脚步，与庄颜拉开了一段距离，他对这里的艺术品没有兴趣，只是欣赏着艺术世界中的她。那些古典油画上体形丰美的希腊众神、天使和圣母，从四面八方与他一同看着这位美丽的东方少女，她就像庭院中那座晶莹的金字塔，很快融为这艺术圣境中的一部分，没有她，这里肯定少了什么。

罗辑陶醉在这如梦如幻的意境中，任时间静静地流逝。不知过了多久，庄颜才想起罗辑的存在，回头对他笑了一下，罗辑的心随之一动，他感到这笑容仿佛是从画中的奥林匹斯山投向尘世的一束光芒。

2）重拍《水浒传》武松打虎

一直有个想法：把经典名著用AI重拍一遍。

武松打虎，是最适合起手的选段——视觉张力强，打斗节奏清晰，场景单一好控制。

把《水浒传》原文分段喂给skill，它出主体提示词+分镜提示词。

然后直接丢进Vidu，自己剪辑合成，最终得到一支短片。

B站上一直有人用AI翻拍西游记，流量还不错。

本质上是同一套路：把原著拆解成15秒以内的故事单元，设计资产图、脚本文案，批量生成视频，再剪辑串联。

技术上不难，难的是肯花时间琢磨。

3）给「冷同学的水」拍一支广告片

除了改编已有文本，这个skill也可以无中生有，扩写剧情。

比如，我有一瓶「冷同学」矿泉水，现在让它写一支完整的TVC广告分镜。

它补写出了起承转合的完整微叙事，场景设定、情绪弧线、产品植入时机、广告词这一套全出来了。

最终生成的广告片，高级感出奇地足。

唯一的小问题：画面中如果有小字，模型目前容易虚化、模糊。但这只是时间问题，下一版模型大概率会解决。

4）拍好莱坞大片

西部片和西游元素结合，有没有搞头？

我随便丢了几个关键词过去，它给我一版视觉爆炸的分镜脚本，完全没想到组合得这么丝滑。

丢进Vidu后，这段视频我盯着看了好几遍。

一起来看下最终的成片，这特效简直夯爆了。

5）拍武侠片

最后让它拍了一段展昭夜行的武侠戏。

武打动作戏一直是AI视频的重灾区，过去基本是一拍一个乱。

这次Vidu生成出来之后，我发现运镜已经有点像那么回事了——出手、格挡、身法的流畅度，远超我的预期。

AI视频的动态控制能力，正在以肉眼可见的速度进化。

整体体验下来，Vidu「多宫格创作」比我预期的强。

配合lengyi-shotlist skill，一个完整的AI短片工作流基本可以跑通：

文字输入 → 分镜脚本 + 资产图提示词 → 主体参考图生成 → 多宫格视频生成 → 剪辑合成

从有想法到出片，门槛已经降到几乎为零。

但有了这套连招后，我脑子里冒出了一个问题：工具越来越好用后，创作的壁垒到底在哪？

这个问题我想了很久，一直没有想到答案。后来，我索性不想了。

现在，技术已经把门打开了。但走进去，靠的还是你自己。

卡点不在工具，卡点在你。

你脑子里有没有一个值得被拍出来的故事？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴