去年有个数据:Runway用户月均生成视频超过1亿条。但有个数字没人敢公布——同一角色跨场景生成的成功率。
我上个月替一家科技公司做60秒产品讲解视频,8个场景,同一个发言人。听起来是AI视频最擅长的"低成本替代真人"场景。最后客户花了半天请真人拍完,AI工具沦为前期分镜草稿。
实测:4款工具,平均15-20次生成才能"勉强能用"
测试对象:Runway、Kling、Seedance、Pika。控制变量:同一组参考图,针对各平台语法调整提示词。
Runway输出最逼真,但角色漂移最明显。头发长度变、肤色随场景偏暖、广角镜头下面部结构走形。每个场景我生成了约18次,仓库场景和办公室场景看起来像兄妹而非同一人。
Kling的面部一致性最好,参考图固定功能确实有效。但衣服是灾难——夹克色号几乎每个场景都在变,其中两个场景直接换了款式。我花了一下午调提示词组合,一致性拉到80%。够好了吗?客户绝对能看出来。
Seedance动作质量最佳,一致性最差。8个场景里3个像换了个人。户外镜头我重试了22次,放弃。
Pika中等水平。角度相近时面部还行,但中景切特写这种基础操作,角色就会"跳脸"—— continuity(连续性)直接断裂。
平均成本:每个场景15-20次生成,才能得到"接近可用"的版本。而"接近"的意思是,专业人士看得出,普通观众可能只是觉得"哪里不对"。
行业现状:所有demo都是单镜头
你现在去翻任何AI视频工具的官方demo,有个共同点:全是单镜头。5秒,一个角色做件 impressive 的事,配文"this changes everything"。
你不会看到同一个角色出现在第二个镜头里。不是他们忘了展示,是做不到。
这解释了为什么AI视频卡在"酷炫玩具"和"生产工具"之间。影视工业的基本单位是镜头组接,不是单条素材。角色一致性是跨镜头叙事的前提,而目前所有工具都在这个前提上失败。
社区里有些 workaround(变通方案)。参考图固定是最直接的,Kling做得最好,但局限在相似 pose 和角度。有人尝试用 ComfyUI 工作流手动锁定面部特征,学习曲线陡到劝退商业用户。还有人在生成后用传统合成手段"修脸",那为什么不直接拍真人?
技术瓶颈:为什么一致性这么难
核心矛盾在于生成模型的训练方式。扩散模型(Diffusion Model)每次采样都是独立随机过程,"同一角色"不是内置概念,而是靠提示词和参考图"逼"出来的近似。
场景变化加剧了这个随机性。户外光照、仓库顶光、办公室柔光——模型要同时解"这是谁"和"光怎么打",两个变量耦合,漂移几乎不可避免。
更隐蔽的问题是身体比例。面部固定住了,手的长度、肩宽、头身比仍可能浮动。单镜头看不出来,切镜头就暴露。
Runway 今年3月发布的 Act-One 功能试图用单张图驱动表情,但跨场景一致性仍是待解问题。Kling 1.6 版本的"角色一致性"模式,官方文档自己标注了"实验性"。
商业现实:省下的钱花在哪儿了
回到我那单项目。AI方案的时间成本:2天测试+生成+筛选+后期修补。真人方案:半天拍摄+1天后期。直接成本上AI略低,但客户要的是确定性——"这个人明天还能出现在续集里,长得一模一样"。
目前唯一能满足这个需求的,是真人演员加合同约束。
有个细节值得玩味。我最后交给客户的AI版本,其实是"合成方案":8个场景里选了4个生成质量最高的,另外4个用静态图+动态背景替代。角色只"出现"了4次,每次不超过3秒。客户接受了这个妥协,但明确说"下次还是拍真人吧"。
AI视频工具的营销话术里,"替代真人拍摄"出现频率极高。但从业者知道,现阶段更准确的说法是"替代真人拍摄中的某些镜头"——而且你得接受角色可能变样。
什么时候这个问题能解决?OpenAI的Sora团队曾在技术报告中提到"长视频一致性"是重点方向,但未给出时间表。Runway、Kling等厂商的更新日志里,"consistency"这个词出现频率在上升,但版本号迭代速度跟不上用户期待。
一个可能的突破路径是3D-aware生成:先建一个可驱动的角色资产,再渲染成视频。但这又回到了传统CG流程的成本结构,失去了AI生成"低成本、快速迭代"的核心卖点。
我的客户最后问了个问题:如果半年后要做续集,这些AI生成的角色还能用吗?我诚实回答了三个字:看运气。
热门跟贴