用Midjourney或DALL-E画"红发皮衣男子",连画两次,出来的是两个不同的人。同样的描述,不同的脸。

这对单张图无所谓。但对分镜师来说是灾难:第1帧是你的主角,第2帧是另一个碰巧也红发皮衣的人,第3帧又换一张脸。到第20帧,你已经有了20个毫无关联的人。

打开网易新闻 查看精彩图片

这是通用AI绘图工具无法用于专业分镜制作的根本原因,也是所有AI分镜工具必须攻克的核心难题。

打开网易新闻 查看精彩图片

问题的根源在于训练方式。生成模型从数百万张图片中学习的是"哪些特征常一起出现"——红发、皮衣、男性面孔会聚成一个特征簇。每次生成时,模型从这个簇里随机采样,每次采到不同的点。没有"记忆"告诉它"这和上次是同一个人"。

要解决它,必须让模型能读取"这是上次那个人"的编码信息。

STORYLINER的Character Memory采用了不同思路。不依赖提示词文本,而是在角色首次出现时构建一个角色编码——用多向量表示面部几何结构、体型、标志性着装。后续每一帧,生成过程都以这个编码为条件。模型不再从"红发男子"的通用簇里采样,而是从编码后的特定角色里采样。

打开网易新闻 查看精彩图片

结果是:30帧分镜里同一张脸、同一个体型、同一套衣服。编码还会存入用户库,下个月的项目能直接调用同一个角色。

这让一些过去不可能的工作流变成现实。摄影指导可以看24帧分镜,讨论第12帧和第17帧的视线匹配——没有角色一致性,这种讨论毫无意义。系列作品和选集创作成为可能:一年拍12支MV的导演,只需编码艺人一次,就能在所有分镜中保持稳定的视觉形象。品牌广告也能复用:广告公司为特定演员建立编码,整个campaign用同一张脸。

但仍有局限。极端特写(只有眼睛或手的画面)有时会漂移,因为画面里能定义角色的几何信息太少。服装变化也是难题:第5帧婚纱、第12帧防护服,引擎有时会丢失底层面部特征。目前的缓解方案是在任何新着装场景中都重新锚定角色的首次出场形象。年龄变化(变老或变年轻)尚未支持。