最近AI圈又炸了锅:MiniMax在6月初放出了自家新一代旗舰模型M3。
它一次把三件原本属于不同模型最强项的能力——前沿代码 / Agent 能力+百万 token 级长上下文+原生多模态——融合到了同一个模型里,而且还开源。
这事为啥值得专门介绍?因为它和最近一年很火,也很卷的AI短剧/漫剧赛道,撞得刚刚好。
图:MiniMax M3 官方介绍页,Frontier 三件套一次性点亮
一个真能看懂视频的模型
先看一下数据吧。
这是某位博主用M3进行实操开发测试,用其他两个模型做代码审核(图中是它自己顺手做的benchmark总结):
图:M3 公布的核心跑分,涵盖了 Coding、Agent、效率等维度
从数据上来看,该模型很强:
M3在衡量真实软件工程任务解决能力的SWE-Bench Pro上拿了59.0%,超过了GPT-5.5和Gemini 3.1 Pro;接近行Claude Opus 4.7;
在“自主Agent”的端到端评测Claw-Eval上,直接拿了第一。
这说明M3已经真正站在了全球一梯队,更重要的是——它是开源的。
当然跑分有点枯燥,实测才有意思。
最能体现“看懂视频”这个能力的,不是识图、不是OCR,而是理解一段没有声音的纯画面视频。
这和人类看视频不一样:对于我们日常多数刷到的带字幕、配音、解说的视频,模型就算“看不懂画面”,也能从文字里找答案。但纯画面、无对白、靠动作推进的视频,才是对“真多模态”最直接的考验。
为什么这事儿跟AI短剧有关?因为一部5分钟的AI短剧,大部分镜头都没有旁白。主角的表情、动作、镜头调度、场景切换,全靠画面自己讲故事。
也就是说,AI 短剧/漫剧制作里,纯画面视频恰恰是常态。
一段 90 秒的无对白足球视频,纯靠画面推进故事
来源:网络
有博主做了一个测试:把一段90秒的梅西、内马尔经典配合进球视频(没字幕、没解说)丢给M3。
M3的输出大致是:“开场内马尔左路拿球,面对两人夹击,挑传直塞给中路插上的梅西;梅西不停球直接脚后跟磕给斜插的内马尔,后者过掉门将推射空门。”
每一秒的关键动作都抓到了。
这意味着,M3真的“看”懂了画面,而不是“先把语音转成文字、再让 AI 理解” 这种二次拼接。
下面这张图是M3自己跑出来的处理日志,16分钟,一段近40分钟无字幕的AI演讲视频,被它整理成了一篇5000字的报道,章节、配图都自动搭好:
M3 跑近 40 分钟视频的处理日志,16 分钟出成稿
来源:网络
这种“看视频出文章”的能力,和它能拿高分跑分一样,本质上都是“多模态 + 长上下文”的副产品——它能同时记住很长的画面序列,也能同时理解画面里的视觉信息。
另一组视频理解测试,模型自动描述画面里人物的动作和场景
来源:网络
1000部AI短剧,只有一部会被看到
看完M3的能力,我们回头看AI短剧这个赛道,会发现一件尴尬的事:
2026年4月,抖音原生端单月新增AI剧及漫剧4.42万部,同期真人实拍微短剧只有3248部——AI短剧的产量已经达到真人短剧的13倍以上。截至2026年2月,全网在播AI剧已经超过12万部(数据来源:DataEye)。
“一个人,一台电脑,几千块,十天产出一部刷屏 AI 短片”——前几年听上去像吹牛,如今Mx-Shell用《丧尸清道夫》已经验证过。
这位白天还在云南处理房地产业务的非科班创作者,用AI工具做出了被好莱坞大佬跨国全网寻人的5分钟短片。
但另一组数据就不那么乐观了:
12万部在播AI剧中,播放量破亿的爆款不超过150部,综合占比仅有0.117%(数据来源:DataEye)。
也就是说,大概每1000部AI作品,只有1部能真正跑通流量。
产量爆炸,爆款稀缺——这就是 AI 短剧/漫剧行业最真实的写照。
问题出在哪?
AI 工具大幅降低了生产的门槛,但没有自动提升创作的质量。大部分 AI 短剧还停留在“图+配音+简单动效”的初级阶段:角色换脸、剧情跳戏、视觉风格飘忽不定——观众一眼就能识破这是 AI 流水线产物,而非真正能打动人心的作品。
问题怎么解决呢?M3或许能帮上忙。
全自动AI短剧制作流程是伪命题吗?
重要说明:下面讨论的不是 “让大家去买M3”。
M3只是当下典型的代表,只要满足“前沿代码 / Agent 能力+百万 token 级长上下文+原生多模态”三个条件的国产模型,理论上都能做类似的事情。我们讨论的是这一类工具”给内容创作带来的新可能。
先看一部5分钟AI短剧的生产流程,大致有六步:
AI 短剧/漫剧 6 步生产流水线,过去人工串场,现在多模态 Agent 自动跑
过去,创作者要在ChatGPT、Midjourney、即梦、Sora、剪映等七八个工具之间来回切换,每切一次工具,就丢一次上下文。这种“断点式”工作流,正是 AI 短剧市场“看起来热闹,真正能跑完的作品寥寥无几”的核心原因。
而这一类模型,正好能补这块拼图。可以从三个维度看:
角色一致性问题第一次有解
AI 短剧真正的拦路虎不是画面“美不美”,而是“主角换了三个发型”“第二集主角突然换了一双眼睛”——也就是业内常说的“角色一致性”。过去要解决这件事,创作者得自己当“监工”:每隔几秒抽一帧,人眼对比,不合格就标红、重出。
“多模态长上下文”模型的新打法,是把整集甚至整季的成片一次性丢给模型做 “画面巡检”:主角脸变了没?动作连贯吗?场景是否跳变?风格是否飘走?一旦发现异常就自动标记、生成修改建议,甚至直接驱动图像/视频工具重做对应镜头。
上面那段 90 秒无声足球视频,本质上就是这种能力的“小规模验证”——它能在没有文字辅助的情况下,稳定追踪画面里的人物和动作。把这种能力迁移到 “看自己做的剧”,只是同一个技术栈的应用扩展。
“全季剧本” 终于能装进一个对话框
短剧和电影最大的不同,在于“长”——不是单集长,而是“全季剧情连贯”。一部 12 集的 AI 短剧,全集剧本动辄五万到八万字,加上分镜描述、角色设定、世界观文档,信息量很容易突破百万字级别。
传统模型只能把剧本切成几段分别喂给 AI,代价是惨重的:AI 永远只能看到“局部”,不知道第三集埋的伏笔第七集要不要回收,不知道第八集新出场的小配角在第五集是不是已经露过脸。
百万级长上下文模型的出现,第一次让“把全季剧本一次喂进去,让AI真的读完了整部剧”变成可能。基于这种 “通读”,AI 可以做跨集伏笔审计、角色行为一致性检查、剧情漏洞扫描。对于系列化 AI 短剧,这是基础设施级别的能力补齐。
全流程从 “手动挡” 升级到 “自动挡”
如果说前两项是 “看” 的能力,Agent 能力补的是 “做” 的能力。
AI短剧的真正生产链路,是 “剧本 → 分镜 → 图 → 视频 → 音频 → 合成” 的一长串工具调用。强Agent能力的模型,可以把这条流水线串起来:它读剧本,自动生成分镜;调图像工具出关键帧;调视频工具出动态镜头;调音频工具配对白和BGM;调剪辑工具完成粗剪。
每一步不需要人工介入,Agent会自己判断是否自动进入下一步流程。
Agent 类工具自己串起 “调研 + 出对比页 + 验证” 全流程
来源:网络
多模态解决“看得见”,长上下文解决“记得住”,Agent 解决“做得动”。这三件套在AI短剧这个场景里,各自补位、缺一不可。
AI短剧成本,可以多低?
最后说下大家最关心的成本问题:一集 5 分钟 AI 短剧,从剧本到成片,大模型token消耗大致在300万-600万之间。
主要的token消耗发生在四个环节:
剧本与分镜(约30-50万):AI 拆解故事、生成分镜、对白,多轮迭代;
图像与视频生成(约200-400万):消耗的大头,每张关键帧、每段镜头都要写prompt + 多次抽卡 + 视觉审核;
多模态审核与迭代(约50-100万):把成片分段丢给多模态模型做一致性巡检;
Agent工具调用循环(约50-100万):工具选择、参数传递、错误处理、状态管理。
一集5分钟AI短剧各环节token消耗,以及不同Token Plan可支撑的产量
以国产模型主流Token Plan定价做参考——入门 Plus 套餐 49 元/月,提供约6亿token;进阶Max套餐119元/月,提供约18亿token;旗舰Ultra套餐469元/月,提供约55亿token。
以MiniMax Token Plan为代表的国产多模态模型主流定价
按一集平均消耗450万token估算,Plus套餐可支撑约130集,Max套餐400集,Ultra套餐1200集以上。放到过去用海外闭源旗舰模型做同样事情的成本,这个数字大约只有后者的 1/10 到 1/15。
过去因为烧钱就能卡住的小团队和独立创作者,现在或许花费一杯咖啡的钱就能用上一整个月。
入场AI短剧赛道,现在也不晚
回到内容创作者本身。
从《丧尸清道夫》到各类 AI 漫剧刷屏,从好莱坞大佬全网寻人到国内平台真金白银的流量扶持,一个清晰的信号正在发出:AI 视频创作的红利期,才刚刚开始。
那些掌握了AI工具链、懂得如何用AI讲好故事的人,正在收割大部分流量和机会。
如果你也想赶上这辆车,从零开始系统掌握 AI 视频创作的全流程——从脚本结构化、角色一致化、场景分层化,到 AI 工具链的标准化作业——那么这场《人邮 AI视频公开课》一定不容错过。
本次公开课将深度解析即梦、Sora、ChatGPT、Midjourney 等AI工具链联动,教你怎么点按钮更教你如何构建属于自己的数字制片厂。
不聊高深的技术名词,只聊如何用最简单的工具组合,在短时间内生成一段具有电影感的短片。
扫描下方二维码,预约今晚 AI 课
⬇️⬇️
——— · ———
*文中内容仅为个人观点
即梦模型 提示词手册
无套路直接领
你可以从这些平台关注:数艺社
热门跟贴