打开网易新闻 查看精彩图片

去年有个数据被很多人忽略了——全球AI视频生成工具的月活用户暴涨340%,但企业级商用订单的转化率不到3%。

剩下的97%去哪了?一个做品牌宣传片的朋友告诉我:客户看完demo很兴奋,一提"要同一个人出镜8个场景",全跑了。

我实测了4个头部工具,结果有点荒唐

我实测了4个头部工具,结果有点荒唐

上个月接了个真需求。客户要60秒企业宣传片,发言人需要出现在办公室、仓库、户外、会议室等8个场景。要求很明确:"同一个人,从头到尾。"

我试了Runway、Kling、Seedance、Pika四个工具。同样的参考图,同样的提示词按各平台语法调整。

Runway的画面最逼真,但人物漂移最明显。头发长度变来变去,户外场景肤色自动变暖,广角镜头下面部结构直接走样。每个场景平均生成18次,才拿到勉强能用的版本。仓库和办公室两个场景并排放,像兄妹而不是同一个人。

Kling的人脸一致性是四家里最好的,参考图钉选功能确实有用。但衣服成了噩梦——夹克颜色几乎每个场景都在变,其中两个场景直接换了款式。我花了一下午调提示词组合,最终一致性大概80%。客户能看出来,这单就黄了。

Seedance的运动质量最流畅,人物却像随机抽奖。8个场景里3个完全是另一个人。户外镜头我重生了22次,放弃了。

Pika中规中矩。角度相近时人脸还能稳住,一旦从半身切到特写,人物直接"换脸"。

打开网易新闻 查看精彩图片

四款工具平均下来,每个场景要跑15-20次,才能拿到"接近可用"的结果。注意,是接近,不是真正一致。

最后客户雇了真人,半天拍完。

社区 Hack 大全:都是补丁,没有解药

社区 Hack 大全:都是补丁,没有解药

AI视频圈针对这个问题发明了不少野路子,效果参差不齐。

参考图钉选(Reference Image Pinning)最直接——给工具喂多张角度的角色图,让它照着匹配。Kling目前做得最好。但限制也很明显:姿势相近时管用,动作幅度一大就崩。

有人用ComfyUI搭工作流,把第一帧生成的人物抠出来,强制垫到后续场景的提示词里。能缓解,不能根治。光影变化大的时候,垫图反而让结果更怪。

更激进的玩法是"分镜拆分法":把8个场景拆成8个独立项目,每个单独调参,最后硬剪在一起。时间成本爆炸,而且镜头一动还是露馅。

最务实的方案是"规避策略"——让角色背对镜头、戴面具、只拍手或产品特写。这不算解决问题,算绕过问题。

为什么技术卡在这里?

为什么技术卡在这里?

打开网易新闻 查看精彩图片

当前AI视频的核心架构是扩散模型(Diffusion Model),它本质上是个"逐帧猜测"系统。每一帧都在根据噪声和提示词重新计算像素,没有"记忆"上一帧人物长什么样的机制。

参考图钉选相当于给模型一个外部记忆库,但它匹配的是"视觉相似度",不是"身份ID"。角度、光照、表情任何一个变量变化,匹配精度就断崖下跌。

3D一致性是另一个思路。如果先生成角色的3D模型,再渲染不同角度,理论上能解决。但当前工具的3D重建精度, corporate video级别的客户根本接受不了——像游戏过场动画,不像真人。

Runway去年演示过Character Consistency功能,至今没正式上线。Pika的"角色固定"功能在简单场景能用,复杂光照下照样漂移。Kling的钉选是现有方案里相对成熟的,但衣服、配饰这些细节仍不可控。

一个被忽视的真相

一个被忽视的真相

所有AI视频工具的官方demo都是单镜头。5秒惊艳片段,配一句"改变一切"。

你从未见过同一个人出现在第二个镜头里。这不是疏忽,是能力边界。

这个边界把AI视频锁死在"玩具"和"工具"之间。个人创作者玩得很开心,企业级生产望而却步。340%的用户增长背后,是97%的商业转化率在沉默。

我那个做宣传片的朋友现在有个内部规则:客户提"人物一致性需求",直接转真人拍摄。不解释,不挣扎,不浪费双方时间。