一个做古风短剧文生图的客户找到我,她跟我吐槽,旧版的指令,每次生成的画面人物外形飘忽不定,同一个女主,这一帧是高髻玉簪,下一帧变成散发,服装颜色也对不上,根本没法用。
我看了她用的旧版指令,问题很集中,出在三个地方,也是我优化的主要发力点。
1、人物描述分散在剧情里,AI每次都在"猜"
通用指令的写法是跟着剧情走,人物描述混在场景里,这一句写背景,那一句顺带提一下服装,AI每次读取的信息是碎的,生成时自然会"脑补"补全,补出来的结果就是每次都不一样。
我给她定制的新指令,核心改动是把人物外形从剧情里剥离出来,单独建立视觉档案,性别、年龄、发型、服饰、气质,每一项都固定死,写成标准格式,不允许模糊描述。
档案建好之后,后面每一条画面提示词都强制调用这份档案,不是"婉婉走进来",而是"一位少女(18岁,黑长发高髻、淡玉簪,穿着月白色淡雅长裙,神情冷漠)走进来",完整描述跟着人物走,AI没有发挥空间。
2、提示词结构不统一,场景信息缺失导致画面飘
她用旧版指令跑出来的画面提示词格式不统一,长短不一,有的只写了动作,有的只写了环境,没有固定结构,AI生成时会随机填充缺失的信息,风格和光影每张都在变。
我在指令里加了场景结构模板,强制要求每一条画面的提示词必须包含五个要素:人物含括号描述、动作加神态、时间光影、背景环境、镜头语言,缺一不可。
这样每条提示词的信息密度是齐的,AI生成时没有可以自由发挥的空白,画面风格才能稳下来。
3、没有空镜头规范,非人物画面处理混乱
短剧里有大量转场和空镜,比如院落、烛光、马车远景,这类镜头原来的指令没有专门的写法,客户要么跳过,要么随便写几个字,生成出来的空镜和主镜头风格完全对不上。
我加了空镜头的标准写法,遇到无人画面,格式固定为"无人,空镜头,……",后面照样写完时间光影和背景环境,保持和主镜头一致的信息结构,整体视觉才连得上。
优化前(客户用的旧版指令):"婉婉站在院子里,天色将暮,她看着远处发呆。"
优化后(定制指令输出):"一位少女(18岁,黑长发高髻、淡玉簪,穿着月白色淡雅长裙,神情清冷疏离)静立院中,侧身望向远处,黄昏暖光从侧面打来,青砖院落、远山剪影,中景构图,逆光侧拍。"
客户用新的指令跑了一组50张连续画面,人物外形一致率显著提高。文生图的人物一致性,不是靠模型记忆,是靠指令把信息锁死。
热门跟贴