全自动AI短剧制作流程是伪命题？国产开源模型又来打脸了|agent|上下文|分镜|制作流程|开源模型|短剧

最近AI圈又炸了锅：MiniMax在6月初放出了自家新一代旗舰模型M3。

它一次把三件原本属于不同模型最强项的能力——前沿代码 / Agent 能力+百万 token 级长上下文+原生多模态——融合到了同一个模型里，而且还开源。

这事为啥值得专门介绍？因为它和最近一年很火，也很卷的AI短剧/漫剧赛道，撞得刚刚好。

图：MiniMax M3 官方介绍页，Frontier 三件套一次性点亮

一个真能看懂视频的模型

先看一下数据吧。

这是某位博主用M3进行实操开发测试，用其他两个模型做代码审核（图中是它自己顺手做的benchmark总结）：

图：M3 公布的核心跑分，涵盖了 Coding、Agent、效率等维度

从数据上来看，该模型很强：

M3在衡量真实软件工程任务解决能力的SWE-Bench Pro上拿了59.0%，超过了GPT-5.5和Gemini 3.1 Pro；接近行Claude Opus 4.7；

在“自主Agent”的端到端评测Claw-Eval上，直接拿了第一。

这说明M3已经真正站在了全球一梯队，更重要的是——它是开源的。

当然跑分有点枯燥，实测才有意思。

最能体现“看懂视频”这个能力的，不是识图、不是OCR，而是理解一段没有声音的纯画面视频。

这和人类看视频不一样：对于我们日常多数刷到的带字幕、配音、解说的视频，模型就算“看不懂画面”，也能从文字里找答案。但纯画面、无对白、靠动作推进的视频，才是对“真多模态”最直接的考验。

为什么这事儿跟AI短剧有关？因为一部5分钟的AI短剧，大部分镜头都没有旁白。主角的表情、动作、镜头调度、场景切换，全靠画面自己讲故事。

也就是说，AI 短剧/漫剧制作里，纯画面视频恰恰是常态。

一段 90 秒的无对白足球视频，纯靠画面推进故事

来源：网络

有博主做了一个测试：把一段90秒的梅西、内马尔经典配合进球视频（没字幕、没解说）丢给M3。

M3的输出大致是：“开场内马尔左路拿球，面对两人夹击，挑传直塞给中路插上的梅西；梅西不停球直接脚后跟磕给斜插的内马尔，后者过掉门将推射空门。”

每一秒的关键动作都抓到了。

这意味着，M3真的“看”懂了画面，而不是“先把语音转成文字、再让 AI 理解” 这种二次拼接。

下面这张图是M3自己跑出来的处理日志，16分钟，一段近40分钟无字幕的AI演讲视频，被它整理成了一篇5000字的报道，章节、配图都自动搭好：

M3 跑近 40 分钟视频的处理日志，16 分钟出成稿

来源：网络

这种“看视频出文章”的能力，和它能拿高分跑分一样，本质上都是“多模态 + 长上下文”的副产品——它能同时记住很长的画面序列，也能同时理解画面里的视觉信息。

另一组视频理解测试，模型自动描述画面里人物的动作和场景

来源：网络

1000部AI短剧，只有一部会被看到

看完M3的能力，我们回头看AI短剧这个赛道，会发现一件尴尬的事：

2026年4月，抖音原生端单月新增AI剧及漫剧4.42万部，同期真人实拍微短剧只有3248部——AI短剧的产量已经达到真人短剧的13倍以上。截至2026年2月，全网在播AI剧已经超过12万部（数据来源：DataEye）。

“一个人，一台电脑，几千块，十天产出一部刷屏 AI 短片”——前几年听上去像吹牛，如今Mx-Shell用《丧尸清道夫》已经验证过。

这位白天还在云南处理房地产业务的非科班创作者，用AI工具做出了被好莱坞大佬跨国全网寻人的5分钟短片。

但另一组数据就不那么乐观了：

12万部在播AI剧中，播放量破亿的爆款不超过150部，综合占比仅有0.117%（数据来源：DataEye）。

也就是说，大概每1000部AI作品，只有1部能真正跑通流量。

产量爆炸，爆款稀缺——这就是 AI 短剧/漫剧行业最真实的写照。

问题出在哪？

AI 工具大幅降低了生产的门槛，但没有自动提升创作的质量。大部分 AI 短剧还停留在“图+配音+简单动效”的初级阶段：角色换脸、剧情跳戏、视觉风格飘忽不定——观众一眼就能识破这是 AI 流水线产物，而非真正能打动人心的作品。

问题怎么解决呢？M3或许能帮上忙。

全自动AI短剧制作流程是伪命题吗？

重要说明：下面讨论的不是 “让大家去买M3”。

M3只是当下典型的代表，只要满足“前沿代码 / Agent 能力+百万 token 级长上下文+原生多模态”三个条件的国产模型，理论上都能做类似的事情。我们讨论的是这一类工具”给内容创作带来的新可能。

先看一部5分钟AI短剧的生产流程，大致有六步：

AI 短剧/漫剧 6 步生产流水线，过去人工串场，现在多模态 Agent 自动跑

过去，创作者要在ChatGPT、Midjourney、即梦、Sora、剪映等七八个工具之间来回切换，每切一次工具，就丢一次上下文。这种“断点式”工作流，正是 AI 短剧市场“看起来热闹，真正能跑完的作品寥寥无几”的核心原因。

而这一类模型，正好能补这块拼图。可以从三个维度看：

角色一致性问题第一次有解

AI 短剧真正的拦路虎不是画面“美不美”，而是“主角换了三个发型”“第二集主角突然换了一双眼睛”——也就是业内常说的“角色一致性”。过去要解决这件事，创作者得自己当“监工”：每隔几秒抽一帧，人眼对比，不合格就标红、重出。

“多模态长上下文”模型的新打法，是把整集甚至整季的成片一次性丢给模型做 “画面巡检”：主角脸变了没？动作连贯吗？场景是否跳变？风格是否飘走？一旦发现异常就自动标记、生成修改建议，甚至直接驱动图像/视频工具重做对应镜头。

上面那段 90 秒无声足球视频，本质上就是这种能力的“小规模验证”——它能在没有文字辅助的情况下，稳定追踪画面里的人物和动作。把这种能力迁移到 “看自己做的剧”，只是同一个技术栈的应用扩展。

“全季剧本” 终于能装进一个对话框

短剧和电影最大的不同，在于“长”——不是单集长，而是“全季剧情连贯”。一部 12 集的 AI 短剧，全集剧本动辄五万到八万字，加上分镜描述、角色设定、世界观文档，信息量很容易突破百万字级别。

传统模型只能把剧本切成几段分别喂给 AI，代价是惨重的：AI 永远只能看到“局部”，不知道第三集埋的伏笔第七集要不要回收，不知道第八集新出场的小配角在第五集是不是已经露过脸。

百万级长上下文模型的出现，第一次让“把全季剧本一次喂进去，让AI真的读完了整部剧”变成可能。基于这种 “通读”，AI 可以做跨集伏笔审计、角色行为一致性检查、剧情漏洞扫描。对于系列化 AI 短剧，这是基础设施级别的能力补齐。

全流程从 “手动挡” 升级到 “自动挡”

如果说前两项是 “看” 的能力，Agent 能力补的是 “做” 的能力。

AI短剧的真正生产链路，是 “剧本 → 分镜 → 图 → 视频 → 音频 → 合成” 的一长串工具调用。强Agent能力的模型，可以把这条流水线串起来：它读剧本，自动生成分镜；调图像工具出关键帧；调视频工具出动态镜头；调音频工具配对白和BGM；调剪辑工具完成粗剪。

每一步不需要人工介入，Agent会自己判断是否自动进入下一步流程。

Agent 类工具自己串起 “调研 + 出对比页 + 验证” 全流程

来源：网络

多模态解决“看得见”，长上下文解决“记得住”，Agent 解决“做得动”。这三件套在AI短剧这个场景里，各自补位、缺一不可。

AI短剧成本，可以多低？

最后说下大家最关心的成本问题：一集 5 分钟 AI 短剧，从剧本到成片，大模型token消耗大致在300万-600万之间。

主要的token消耗发生在四个环节：

剧本与分镜（约30-50万）：AI 拆解故事、生成分镜、对白，多轮迭代；

图像与视频生成（约200-400万）：消耗的大头，每张关键帧、每段镜头都要写prompt + 多次抽卡 + 视觉审核；

多模态审核与迭代（约50-100万）：把成片分段丢给多模态模型做一致性巡检；

Agent工具调用循环（约50-100万）：工具选择、参数传递、错误处理、状态管理。

一集5分钟AI短剧各环节token消耗，以及不同Token Plan可支撑的产量

以国产模型主流Token Plan定价做参考——入门 Plus 套餐 49 元/月，提供约6亿token；进阶Max套餐119元/月，提供约18亿token；旗舰Ultra套餐469元/月，提供约55亿token。

以MiniMax Token Plan为代表的国产多模态模型主流定价

按一集平均消耗450万token估算，Plus套餐可支撑约130集，Max套餐400集，Ultra套餐1200集以上。放到过去用海外闭源旗舰模型做同样事情的成本，这个数字大约只有后者的 1/10 到 1/15。

过去因为烧钱就能卡住的小团队和独立创作者，现在或许花费一杯咖啡的钱就能用上一整个月。

入场AI短剧赛道，现在也不晚

回到内容创作者本身。

从《丧尸清道夫》到各类 AI 漫剧刷屏，从好莱坞大佬全网寻人到国内平台真金白银的流量扶持，一个清晰的信号正在发出：AI 视频创作的红利期，才刚刚开始。

那些掌握了AI工具链、懂得如何用AI讲好故事的人，正在收割大部分流量和机会。

如果你也想赶上这辆车，从零开始系统掌握 AI 视频创作的全流程——从脚本结构化、角色一致化、场景分层化，到 AI 工具链的标准化作业——那么这场《人邮 AI视频公开课》一定不容错过。

本次公开课将深度解析即梦、Sora、ChatGPT、Midjourney 等AI工具链联动，教你怎么点按钮更教你如何构建属于自己的数字制片厂。

不聊高深的技术名词，只聊如何用最简单的工具组合，在短时间内生成一段具有电影感的短片。

扫描下方二维码，预约今晚 AI 课

⬇️⬇️

——— · ———

*文中内容仅为个人观点

即梦模型提示词手册

无套路直接领

你可以从这些平台关注：数艺社

全自动AI短剧制作流程是伪命题？国产开源模型又来打脸了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

被这个Pavo平台硬控了！AI视频、短剧都能做，完全免费

Agent之间，有互联网了！

破天荒！DeepSeek V4正式版居然要涨价，而且翻着倍地涨

微信做Agent，AI创业者为什么反而不慌？

GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

告别硬件出海上一个十年，前安克CMO做了款AI时代的Memory产品｜硬氪专访

Sonnet 5终于来了，然而Opus 4.8现在有点尴尬

一夜收获3000颗星，AI视频的“龙虾时刻”降临了？

Karpathy又封神！掀翻RAG，把你的笔记变成第二大脑

做视频的「Cursor」，Anijam重写动画创作流程丨涌现新项目

AI求职作弊泛滥！Google、字节反击：用AI打败AI

SemiAnalysis创始人：推理或超越石油成全球最大市场，2040年太空数据中心将主导全球算力

周鸿祎：中国必须拥有自己的Mythos

00后小哥复刻Claude最强神话模型OpenMythos

“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

对话杨国安：面对AI，企业家在焦虑什么？

HDC 2026 深度解构：鸿蒙全面向 Agent 架构演进，小艺做了这三件事

月薪两万的“造脸人”，快被自己造的“脸”淘汰了

榴莲模型制作流程大公开，手工打造，每一件都满是惊喜！