Runway连跑18次都崩了：AI视频工具集体栽在1个细节上

全栈遛狗员

2026-03-26 20:14 ·北京

去年有个数据被很多人忽略了——全球AI视频生成工具的月活用户暴涨340%，但企业级商用订单的转化率不到3%。

剩下的97%去哪了？一个做品牌宣传片的朋友告诉我：客户看完demo很兴奋，一提"要同一个人出镜8个场景"，全跑了。

我实测了4个头部工具，结果有点荒唐

我实测了4个头部工具，结果有点荒唐

上个月接了个真需求。客户要60秒企业宣传片，发言人需要出现在办公室、仓库、户外、会议室等8个场景。要求很明确："同一个人，从头到尾。"

我试了Runway、Kling、Seedance、Pika四个工具。同样的参考图，同样的提示词按各平台语法调整。

Runway的画面最逼真，但人物漂移最明显。头发长度变来变去，户外场景肤色自动变暖，广角镜头下面部结构直接走样。每个场景平均生成18次，才拿到勉强能用的版本。仓库和办公室两个场景并排放，像兄妹而不是同一个人。

Kling的人脸一致性是四家里最好的，参考图钉选功能确实有用。但衣服成了噩梦——夹克颜色几乎每个场景都在变，其中两个场景直接换了款式。我花了一下午调提示词组合，最终一致性大概80%。客户能看出来，这单就黄了。

Seedance的运动质量最流畅，人物却像随机抽奖。8个场景里3个完全是另一个人。户外镜头我重生了22次，放弃了。

Pika中规中矩。角度相近时人脸还能稳住，一旦从半身切到特写，人物直接"换脸"。

四款工具平均下来，每个场景要跑15-20次，才能拿到"接近可用"的结果。注意，是接近，不是真正一致。

最后客户雇了真人，半天拍完。

社区 Hack 大全：都是补丁，没有解药

社区 Hack 大全：都是补丁，没有解药

AI视频圈针对这个问题发明了不少野路子，效果参差不齐。

参考图钉选（Reference Image Pinning）最直接——给工具喂多张角度的角色图，让它照着匹配。Kling目前做得最好。但限制也很明显：姿势相近时管用，动作幅度一大就崩。

有人用ComfyUI搭工作流，把第一帧生成的人物抠出来，强制垫到后续场景的提示词里。能缓解，不能根治。光影变化大的时候，垫图反而让结果更怪。

更激进的玩法是"分镜拆分法"：把8个场景拆成8个独立项目，每个单独调参，最后硬剪在一起。时间成本爆炸，而且镜头一动还是露馅。

最务实的方案是"规避策略"——让角色背对镜头、戴面具、只拍手或产品特写。这不算解决问题，算绕过问题。

为什么技术卡在这里？

为什么技术卡在这里？

当前AI视频的核心架构是扩散模型（Diffusion Model），它本质上是个"逐帧猜测"系统。每一帧都在根据噪声和提示词重新计算像素，没有"记忆"上一帧人物长什么样的机制。

参考图钉选相当于给模型一个外部记忆库，但它匹配的是"视觉相似度"，不是"身份ID"。角度、光照、表情任何一个变量变化，匹配精度就断崖下跌。

3D一致性是另一个思路。如果先生成角色的3D模型，再渲染不同角度，理论上能解决。但当前工具的3D重建精度， corporate video级别的客户根本接受不了——像游戏过场动画，不像真人。

Runway去年演示过Character Consistency功能，至今没正式上线。Pika的"角色固定"功能在简单场景能用，复杂光照下照样漂移。Kling的钉选是现有方案里相对成熟的，但衣服、配饰这些细节仍不可控。

一个被忽视的真相

一个被忽视的真相

所有AI视频工具的官方demo都是单镜头。5秒惊艳片段，配一句"改变一切"。

你从未见过同一个人出现在第二个镜头里。这不是疏忽，是能力边界。

这个边界把AI视频锁死在"玩具"和"工具"之间。个人创作者玩得很开心，企业级生产望而却步。340%的用户增长背后，是97%的商业转化率在沉默。

我那个做宣传片的朋友现在有个内部规则：客户提"人物一致性需求"，直接转真人拍摄。不解释，不挣扎，不浪费双方时间。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴