替你们试过了，OiiOii真能帮普通人做出电影来！|oiioii|动画|新论文|电影|视图|镜头

前两天看到B站百大up主LKs发了一期Pocket 4P评测的视频，谈了一个非常有趣的问题，叫做：买了博主同款设备，为什么拍的还是不好看。

他给出了一个公式：

成片质量 = 相机参数(P) × (拍摄人变量(S) + 相机易用性(U)) × (环境因子(E) + 天气因子(W))

意思是：相机参数再好，最终乘以的是你的技术和相机的易用性。设备只是乘数，人才是被乘数。同样设备到了不同人手里，出来的东西天差地别。

我看完之后蛮有感触的，因为AI视频领域正在发生完全一样的事。

字节的Seedance 2.0、快手的Kling 3.0、谷歌的Veo 3.1，模型一个比一个强。曾经封神的Sora，现在都没什么人讨论了。但你打开B站看看，用同样模型做出来的视频，质量差距大得离谱。有人做出来像电影片段，有人做出来像PPT配了动效。

其实和使用所有AI工具类似，当AI把基本的生成能力磨平之后，真正差异体现在领域知识上。比如所有人都能用AI Coding去做产品，但是做什么产品，或者说知道一个好产品如何产生的人会能把这件事执行得更好。而以AI视频来说，真正懂动画和电影领域工作流，具备相应审美的人才能做出更好的作品。

所以，你常常会发现，当大家用的模型都一致了，真正制约生产力的瓶颈又回到了人身上。

而这次，在体验了两天的oiioii之后，我又产生了些不同的想法。先看一个成品。我只输入了一个剧情的想法，OiiOii帮我做出来的4分多钟的短片：

这是怎么从一句话变成一部完整动画的？接下来慢慢说。

一个AI视频的质量公式

我自己拆了一个AI视频的质量公式：

M（模型能力）这个变量，2026年已经在快速拉平。大家都能用Seedance 2.0，都能用Kling 3.0，画面质量的差距在缩小。

真正拉开差距的，是S、U、D、C这四个变量。

而这四个变量，恰好就是大多数AI视频工具不管的地方。它们给你一个强大的模型（M拉满），然后把S、D、C全部甩给你。相当于给你一台顶配相机，但拍摄技术、构图、找光全靠你自己。

我在豆瓣标记看过的影视剧超过2000部。自己从来没拍过东西，但片子看多了，对一些导演的工作方式印象很深。

比如希区柯克，他出了名的要把每一个镜头都画成详细的分镜稿才开拍。他到了片场经常觉得无聊。因为在他看来，电影在画分镜的时候就已经拍完了，剩下的只是执行。

分镜决定的不是画面好不好看，而是故事怎么讲、节奏怎么走。 它掌控着观众的情绪走向。这就是公式里D这个变量的份量。

直到我用了OiiOii，我觉得终于有一个AI视频工具认真对待这件事了。

OiiOii：一句话雇7个AI员工

OiiOii是一个AI动画创作工具，去年底内测的时候10万人排队，今年4月正式上线，据报道已有超过20万创作者在用。

它跟其他AI视频工具最大的区别在于，它做的不是一个5-10秒的单镜头。它从一句话开始，帮你做出一整部1分钟以上的叙事动画。

怎么做到的？OiiOii搞了一个7人虚拟动画团队。每个人都是一个专业化的AI Agent，各司其职：

回到公式：OiiOii做的事情，是用7个AI员工把S、U、D、C四个变量同时拉高。 你的创作能力不够？编剧和分镜师帮你。你不会保持一致性？角色设计师和艺术总监帮你。工具不好用？一句话就能启动整条流水线。

这套打法比单纯把工具做得更易用要狠得多。别的工具是让你少干一点活，OiiOii是直接帮你干完。

实测：一句话到成片的完整流程

说到这里可能有点抽象，直接看我的实测。

我给OiiOii输入了一句话：「一对恋人在星空下的天文馆里起舞，周围的场景像走进了一幅油画，色彩梦幻，充满不真实的浪漫感。」

这句话的灵感是《La La Land》里两个场景的混合。一个是Mia和Sebastian在洛杉矶天文馆里悬浮起舞的那段星空。另一个是片尾两人在酒吧重逢后，脑海里想象的那段「如果当初我们在一起」的幻想片段，视觉上像直接走进了一幅画。我想用这两个画面的意境做底色，看OiiOii能延展出一个什么样的新故事。

然后就发生了一件蛮有意思的事。

下面拆开说每一步。

艺术总监接单，编剧写剧本

输入那句话之后，艺术总监先接单，提取了核心要素：星空天文馆、起舞的恋人、油画质感、梦幻浪漫。然后编剧Agent自动生成了一个完整故事。

两个角色： 陆星河（28岁天体物理研究员，理性主义者）和林梦影（26岁，感性的艺术灵魂）。故事发生在一个即将闭馆的天文馆里，讲的是理性与感性的碰撞和和解。

我只说了一句话，它给我写了一个有人物弧光的完整剧本。

角色设计师锁定外观

角色设计师根据剧本为两个角色生成了主图和三视图概念图。这一步的意义是锁定角色外观，确保后面19个分镜里角色不会变脸。

场景设计师搭建4个场景

场景设计师搭建了4个场景，每个场景都有多角度视图：

星语天文馆主放映厅（常规态）
天文馆设备维修室
天文馆生锈天台
梦幻油画星空大厅（极光态）

多角度视图的意义和角色三视图一样：保证不同镜头里同一个场景看起来是一致的。

分镜师拆出19个专业分镜

然后是重头戏。分镜师把整个故事拆成了19个分镜。

每个分镜都有专业的镜头语言：medium shot、wide shot、close-up、Dutch angle、俯拍，运镜方向、氛围光影全部写好了。分镜师还给了监修思路，比如在高潮段落特意增加了天象仪启动时「机械咆哮」与「光影狂欢」的细节衔接，避免角色在流动光影中产生空间瞬移感。

生成视频 + 音效 + 合成

分镜确认后，动画师开始逐个分镜生成视频。用的是Seedance 2.0模型，Pro模式，可以选720p或480p。

视频生成完之后，音效工程师用Suno生成了背景音乐，自动匹配叙事节奏。

最后艺术总监把所有素材合成为最终视频，可以下载720p或1080p高清版。

全流程总览

从一句话到成片，整个工作流长这样：

对照公式看一下这个过程：

我的S几乎为零，但D和C都被Agent拉到了我自己写要花一整天的水平。

分镜三板斧：想做得更好，工具不挡路

上面是全自动模式的效果。但OiiOii真正让我觉得有意思的，是它在自动化之外还保留了精确控制的能力。

第一板斧：自动化分镜，不用再四处扒提示词了

用过AI视频工具的人都知道，最痛苦的不是等生成，是写提示词。一个30秒的视频拆成6个镜头，每个镜头写一段详细的英文提示词，光这一步就得磨一两个小时。

OiiOii的做法是：你不用写。编剧Agent写剧本，分镜师Agent拆镜头写提示词，全自动。

按我的理解，其实是因为OiiOii对这些影视制作工作流中不同角色的技能以及各类AI模型的能力有充足的领域认知，所以，他们把这变成了一个类似skill的东西，植入在了视频创作的工作流中。

第二板斧：自由画布模式，从参考图到成片的可控玩法

自动分镜够省心，但如果你心里已经有了一个具体的视觉参考呢？比如想复刻某个B站爆款的风格。

这就是自由画布模式的价值。点开任意一个分镜，你会看到分段式的提示词，清楚地分成画面描述、角色动作、镜头运动、氛围光影几个模块。Agent把底牌全露出来了。觉得角色表情不对？改表情那一栏。觉得镜头太远？改镜头运动那一栏。

画布模式支持三种操作方式：

全自动：完全交给Agent，你只管审片
半自动：投喂一张图，告诉Agent你想要什么
手搓：自己写提示词，完全手动控制

AI视频工具最实际的应用场景之一，就是复刻爆款。我决定拿OiiOii测一下这件事。

挑的是B站最近最火的「地牢酒馆」系列——第一视角进入地牢小酒馆，每集来一个奇怪生物喝酒，互动诡异又好笑。单集543万播放、32万点赞，是2026年AI视频赛道最值得研究的爆款样本之一。

我做了一个改编：把酒馆里的客人换成街头霸王里的角色，看OiiOii能不能在保留原作风格的基础上，做出新的故事。

先要选情绪关键词。OiiOii给了冲突、浪漫、恐怖、搞笑、欲望几个选项，每个都对应不同的叙事路径。地牢酒馆的精髓是荒诞反应，所以我选了「搞笑」。

然后遇到了一个小插曲。直接输入「街头霸王角色来酒馆」会被版权检测拦截。我换成原创设定描述（红头巾武术家、巨型摔角手、绿皮丛林战士这类），就过了。这其实是好事，原创设定比直接借用IP更适合做长期内容。

接下来角色设计师给5个角色都做了主图+三视图，每个角色之间风格统一，但形象有明显差异。

分镜师拆了5个镜头，每个角色一段互动。提示词的颗粒度让我有点惊讶，精确到0-2秒、2-4秒、4-7秒的动作分解，连「金币掉桌上的反弹路径」这种细节都写了。

视频生成阶段，5个分镜并行渲染，差不多5-6分钟全部出来。最后合成的视频比我预想的好，第一视角的代入感和原作很像，角色互动也有荒诞喜剧的感觉。

整个过程没有手写一个英文提示词。我只做了三件事：写一段中文故事描述、选情绪关键词、改了几句被版权拦截的描述。剩下的全是Agent在做。

第三板斧：把视频生成的黑盒展开

这个功能是我觉得OiiOii分镜能力最强的地方，也是99%的用户没注意到的。

传统AI视频工具的体验是：你写一段提示词，几分钟后吐出一个5秒的视频。中间发生了什么、画面怎么从开头变到结尾、想改某一帧怎么改，你都不知道。从提示词直接到视频，是个黑盒。

OiiOii把这个黑盒拆开了。

每个镜头其实是由多张关键帧构成的。 你可以对整个镜头做整体调整——改提示词、换模型、换画布比例，让整段画面跟着变。

也可以展开它，对镜头里任意一张关键帧单独修改。

视频节奏的每一个变化——动作的起势和完成、镜头的推近和拉远、情绪的转折——都是由这些关键帧的差异决定的。能调每一帧，就意味着你能掌握视频的每一秒。

反过来也行，从已有的分镜里任意勾选几个，组合成一段新的视频。

你对视频的控制颗粒度，从一整个镜头变成了一帧一帧。 不满意不用重来整个镜头，只改不满意的那一小段。

这背后还有一个常被忽略的好处：省钱。 AI视频模型现在真挺贵的，一个高清镜头生成成本几块到十几块不等，60秒的叙事动画动辄几十块起步。如果按传统工具的方式，一个不满意就重做整个镜头，废镜头的钱够你再做半部片子。分镜让创作过程专业的同时，也让执行节奏和最终成本变得可控——这其实是普通人能持续用AI做视频的前提。

用公式的语言说：画布模式和镜头拆分，让有能力的创作者可以主动拉高S和D这两个变量。 全自动已经给了一个不错的底线，想做得更好，工具也不会挡你的路。

回到公式

AI视频成片质量 = M × (S + U) × (D + C)

OiiOii没有在M（模型）上做出独家优势，Seedance 2.0别的工具也能用。但它用7个专业化的AI Agent，同时拉高了U、D、C三个变量，还帮你补了S。这是M拉不动了之后，最聪明的破局方式。

我有一个判断：AI视频工具正在经历和云计算一样的演进路径——从「卖原始算力」走向「卖完整服务」。 Seedance、Kling、Veo这些模型像是云计算早期的IaaS，给你一台虚拟机，剩下全靠你；OiiOii这种是PaaS甚至SaaS，整套生产线开箱即用。这条路走通的话，OiiOii不会是一个AI视频工具，它会是第一个AI视频公司。

说实话，OiiOii不是万能的。如果你要做真人短剧、需要精确的舞蹈动作控制，或者做系列番剧需要跨集保持角色一致，目前可能还不是它最擅长的场景。

但如果你想做单集动画、MV、品牌宣传片、故事短片，特别是你有好故事但不想花大量时间手搓提示词，OiiOii的分镜能力确实能帮你省掉很多工作，同时让成片质量上一个台阶。

150+种风格可以选，从日漫到3D皮克斯风到真人风格都有。接入了满血版Seedance 2.0之后，画面质量也确实比之前好了不少。

作为一个看了2000多部电影的人，我一直觉得AI视频工具缺的不是画面质量，而是对创作流程的尊重。电影工业花了一百年建立起来的分工体系，从编剧到分镜师到摄影到剪辑，每个环节都有专业的人在做专业的事。

OiiOii可能是第一个认真把这套逻辑搬到AI视频里的产品。它给你的不是一个万能工具，是一个团队。你的位置是导演。

这个方向我觉得是对的。从今往后，做视频拼的不是谁手里的模型更强，是谁雇得起更专业的AI员工。

最后说点私人的。我大学时一直有个隐隐的电影梦，看完《安妮霍尔》之后还认真买过一本《认识电影》。