我试了4款AI视频工具，15次生成后客户还是请了真人

赛博兰博

2026-03-26 20:15 ·北京

去年有个数据：Runway用户月均生成视频超过1亿条。但有个数字没人敢公布——同一角色跨场景生成的成功率。

我上个月替一家科技公司做60秒产品讲解视频，8个场景，同一个发言人。听起来是AI视频最擅长的"低成本替代真人"场景。最后客户花了半天请真人拍完，AI工具沦为前期分镜草稿。

实测：4款工具，平均15-20次生成才能"勉强能用"

实测：4款工具，平均15-20次生成才能"勉强能用"

测试对象：Runway、Kling、Seedance、Pika。控制变量：同一组参考图，针对各平台语法调整提示词。

Runway输出最逼真，但角色漂移最明显。头发长度变、肤色随场景偏暖、广角镜头下面部结构走形。每个场景我生成了约18次，仓库场景和办公室场景看起来像兄妹而非同一人。

Kling的面部一致性最好，参考图固定功能确实有效。但衣服是灾难——夹克色号几乎每个场景都在变，其中两个场景直接换了款式。我花了一下午调提示词组合，一致性拉到80%。够好了吗？客户绝对能看出来。

Seedance动作质量最佳，一致性最差。8个场景里3个像换了个人。户外镜头我重试了22次，放弃。

Pika中等水平。角度相近时面部还行，但中景切特写这种基础操作，角色就会"跳脸"—— continuity（连续性）直接断裂。

平均成本：每个场景15-20次生成，才能得到"接近可用"的版本。而"接近"的意思是，专业人士看得出，普通观众可能只是觉得"哪里不对"。

行业现状：所有demo都是单镜头

行业现状：所有demo都是单镜头

你现在去翻任何AI视频工具的官方demo，有个共同点：全是单镜头。5秒，一个角色做件 impressive 的事，配文"this changes everything"。

你不会看到同一个角色出现在第二个镜头里。不是他们忘了展示，是做不到。

这解释了为什么AI视频卡在"酷炫玩具"和"生产工具"之间。影视工业的基本单位是镜头组接，不是单条素材。角色一致性是跨镜头叙事的前提，而目前所有工具都在这个前提上失败。

社区里有些 workaround（变通方案）。参考图固定是最直接的，Kling做得最好，但局限在相似 pose 和角度。有人尝试用 ComfyUI 工作流手动锁定面部特征，学习曲线陡到劝退商业用户。还有人在生成后用传统合成手段"修脸"，那为什么不直接拍真人？

技术瓶颈：为什么一致性这么难

技术瓶颈：为什么一致性这么难

核心矛盾在于生成模型的训练方式。扩散模型（Diffusion Model）每次采样都是独立随机过程，"同一角色"不是内置概念，而是靠提示词和参考图"逼"出来的近似。

场景变化加剧了这个随机性。户外光照、仓库顶光、办公室柔光——模型要同时解"这是谁"和"光怎么打"，两个变量耦合，漂移几乎不可避免。

更隐蔽的问题是身体比例。面部固定住了，手的长度、肩宽、头身比仍可能浮动。单镜头看不出来，切镜头就暴露。

Runway 今年3月发布的 Act-One 功能试图用单张图驱动表情，但跨场景一致性仍是待解问题。Kling 1.6 版本的"角色一致性"模式，官方文档自己标注了"实验性"。

商业现实：省下的钱花在哪儿了

商业现实：省下的钱花在哪儿了

回到我那单项目。AI方案的时间成本：2天测试+生成+筛选+后期修补。真人方案：半天拍摄+1天后期。直接成本上AI略低，但客户要的是确定性——"这个人明天还能出现在续集里，长得一模一样"。

目前唯一能满足这个需求的，是真人演员加合同约束。

有个细节值得玩味。我最后交给客户的AI版本，其实是"合成方案"：8个场景里选了4个生成质量最高的，另外4个用静态图+动态背景替代。角色只"出现"了4次，每次不超过3秒。客户接受了这个妥协，但明确说"下次还是拍真人吧"。

AI视频工具的营销话术里，"替代真人拍摄"出现频率极高。但从业者知道，现阶段更准确的说法是"替代真人拍摄中的某些镜头"——而且你得接受角色可能变样。

什么时候这个问题能解决？OpenAI的Sora团队曾在技术报告中提到"长视频一致性"是重点方向，但未给出时间表。Runway、Kling等厂商的更新日志里，"consistency"这个词出现频率在上升，但版本号迭代速度跟不上用户期待。

一个可能的突破路径是3D-aware生成：先建一个可驱动的角色资产，再渲染成视频。但这又回到了传统CG流程的成本结构，失去了AI生成"低成本、快速迭代"的核心卖点。

我的客户最后问了个问题：如果半年后要做续集，这些AI生成的角色还能用吗？我诚实回答了三个字：看运气。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴