实测可灵3.0，普通人的导演梦成真了

卡尔的AI沃茨

2026-02-08 12:04 ·北京 ·前大厂算法工程师

当我用可灵3.0和3.0 Omni抽了100个15s镜头后，

我意识到AI视频又进入一个新时代了。

先说结论，

这次更新了单次15s多分镜视频生成，多角色多语言对话，4k清晰度，一致性稳到离谱。来看这两个case，

这两个视频，第一个是图生视频，第二个是文生视频，两个视频的画面都更加具有电影感，而且都做出了分镜，第一个视频我给到的提示语是：

一名特工在夜晚的香港街头被人追，时不时回头看对方位置露出紧张的表情，最终一边跑一边从车门跳上一辆行驶中的电车，然后在行驶晃动的电车中走向车的后方，伴随着行驶的电车男人从电车后窗回头望停下来追不上他停下原地的另一个男人。紧张，快节奏，电影感。

在提示语里只是写出了剧情内容，完全没有告诉它需要在人物进行什么动作的时候，用什么样的镜头、什么样的景别以及什么样的镜头运动。可灵是自己做出了5个分镜。

我和我的编导朋友一拍即合，把一个个分镜拆解来看，看看可灵有没有导演思维。

第一个镜头可灵用了低角度追拍，人物迎着镜头冲向观众的动态把紧迫感拉满。同时可灵能够自己思考在画面中增加了很多和行人碰撞的场景，做出人物和环境的互动。

然后在手持晃动的跟拍镜头中，露出了人物一个有点虚焦的面部镜头。可灵知道我在提示词中写出的男主露出紧张的表情，选择用特写镜头来展现，这是电影节奏中的呼吸位。

第三个镜头，可灵又换了一个视角，展现了人物遇到一辆电车的场景。整个电车出现的位置并不突兀，而且能够感觉到人物下一秒就会跟电车做出互动。

第四个镜头，人物跳上车的站位和他上一个镜头的动作衔接也是对应上的，这里整个人物的动作以及镜头的设计，都很有真实感。

最后一个镜头是人物在车尾看到停下来追击他的男人，这里通过人物的过肩镜头来展现人物的位置关系，设计得也都非常自然。

能看得出来，可灵是明确知道在表现什么样的画面内容时，应该用什么样的构图、什么样的镜头运动以及什么样的景别。这些知识是导演需要具备的基础技术知识，可灵现在已经拥有了。

除了可以让可灵帮你自动做分镜之外，如果你已经有提前规划好的分镜，知道要如何安排自己的镜头，也可以用可灵 3.0 现在的自定义分镜功能。

在 15 秒内最多可以规划出 6 个分镜，可以选择每个分镜的时长，写好每个分镜的剧情内容。

我按照上面这张图的分镜内容，做出了下面这个视频，每一个镜头的画面和时长，都是按照我规定的内容做出来的，尤其整个画面保持了非常强的风格一致性。

可灵这一次升级的不止是分镜，

还有多人对话能力。

我们可以在一段15秒的视频里面设计多个人物的连续对话，而且能够做出以往 AI 视频很难做出来的人物正反打对话镜头，比如下面这个视频。

人物的对话非常自然，多个人物角色在做动作的同时，能保持说话时要求的情绪音色准确性，且表演细腻，同时对话镜头能保持较高的风格和人物的一致性。

可灵在控制分镜的剪辑时节奏也很好，很短的15秒视频真的很有那种冷幽默的感觉

这解决了AI视频中非常大的一个难题，

也就是说，我们以后不需要一张图一张图地来固定人脸了，而是可以一组视频一组视频地去制作。

我还测试了几个不同风格的画面，每一种画面都能够保持严格的一致性，即使是比较风格化的动画制作，它也能够很好地保持下来。

从外景的容器堆场，到蓝红两台机甲的涂装细节，再到座舱内飞行员的制服，一致性保持得都非常好。九色鹿低头轻触凡人额头的动作，轻盈且带有仪式感，没有机械僵硬感。

动漫风格的人物动作没有变形成伪3D的感觉。仙侠动画中女主角飘逸的高马尾、淡蓝色的剑光，在 360 度大范围旋转镜头中始终保持着统一的形态。

强啊强！

而且可灵还能讲方言，在这个基础上，我又玩了一个很有意思的东西，在古装场景中，包装了一个非常有地域特点的、四川话风格的情侣对话场景，

可灵的方言讲得也很不错，这种就很有意思了，

本来你以为是一个比较正经的场面，结果两个人一开口，是比较接地气的四川话。地域特征一加上，人物就更加鲜活，整个画面就更加有戏剧感。

然后我又又又玩了一个比较复杂的场面，是港剧里经常能看到的粤语和英语掺杂在一起讲的场景。这里我直接使用的是文生视频。

这个视频我写的提示词是这样的，其实蛮抽象的，说实话这个复杂程度，我一个广东本地人都没读明白，但是可灵读明白了，

在一家办公室里，两个人在对话，A（被抢功者，崩溃又暴怒，声音发抖）: 你居然当着 Boss 说那个 Strategy 是你想的？那份 Deck 我改了三十遍，凌晨三点还在调 Font！真系 Shameless（不要脸）到爆咯你！（注：语速很快，普通话带哭腔，英文词重读，粤语收尾带骂意）B（抢功者，轻蔑自信，反咬一口）: Relax，我系 Lead 呀！没有我去 align 资源，你啲东西根本落唔到地，别咁玻璃心啦！唔好喺度嘈！（注：B全程半笑，眼神藐视，语气理所当然，最后一句用粤语强行压制对方）

除了方言之外，可灵的多国语言讲得也都很不错。我直接设计了一个三人场景，然后给他们每一个人都做了一个单人的切景分别讲中文、英文、韩语。不仅全程人脸保持了一致，而且语言、动作、神态表情做得都很不错。

用到这里，

我还想大拇哥一下可灵这次清晰度是真不错。

即使是切近它自己生成的画面，镜头也都能够保持很高清晰度，人脸的细节什么的做得都很到位。

上面的镜头都是我用可灵 3.0 做出来的。

这次可灵还带来了另一个新的升级，

可灵3.0 Omni，

从界面上就可以看到，可灵 3.0 Omni 出现在之前我们介绍过的多模态视频编辑功能中可灵O1模型所在的位置，其实可灵3.0 Omni就是O1升级后的新版本，更加侧重视频编辑功能。

我可以在可灵 3.0 Omni 中上传自己的一段视频作为创建主体。然后后续使用这个主体来创建视频的话，它就可以很严格地保持音色的一致。

比如说这里，我上传了一段自己的视频，作为创建了一个我自己的角色，

然后我用这个角色做了两段 15 秒的视频，并将它们拼接在了一起。从这两段视频中可以听到，我的角色保持的音色与我的原声一致，我自己听起来还是挺明显的。

固定音色是之前 AI 视频工具一直以来都没有解决的问题，只能通过后期配音解决。但是现在我可以直接在可灵做到了，这样我就不再需要再找人进行后期配音，而是一次性直接生成了完整、能够使用的镜头。

同时，我还尝试使用可灵 3.0 Omni 使用前面的素材做了一段替换主体的视频，把人物换成了我自己，

整个使用的感受来说，

可灵 3.0 Omni 的视频编辑功能比 O1 要更加稳定，不管是风格的延续还是人物的动作和表情都会更加自然。更详细使用方法，大家可以参考我之前写的那篇关于 O1 的视频文章。

说实话，这两天我还处于一个震惊的大状态中。

感觉AI已经告别了单镜头的时代，

迎来了一组多镜头同时生成的这样一个新阶段。

可灵做出来的多分镜不只局限于遵循我给的提示语，离谱的是，它能够在生成的过程中，自己补足我们在写提示语时可能没有写完整的部分。

它会把这一组镜头组合得非常完整，让这一组镜头就能完成单一场景的完整叙事。

这几天我看到了非常多的人，用两三句提示词，就做出了一段极具电影感，人物的表情，动作和配音几乎分不出是 AI 的作品。

以前在我看来，

视频创作门槛在于你是否有扎实的影视制作知识，

有，才能创造出有审美高质量的作品，

可灵这次再一次把这个距离无限缩短，

短到我伸手就够到了。

@ 作者 / 阿汤 & 卡尔

最后，感谢你看到这里如果喜欢这篇文章，不妨顺手给我们点赞｜在看｜转发｜评论

如果想要第一时间收到推送，不妨给我个星标

如果你有更有趣的玩法，欢迎在评论区和我聊聊

更多的内容正在不断填坑中……

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴