你写"一只橘猫在玩球,水彩风格",AI给你一张能用的图。但也就只是"能用"——和惊艳没关系。

直到我看到Gemini官方发的一条推文,才发现自己一直在用"新手模式"写提示词。问题是,大多数人跟我一模一样。

打开网易新闻 查看精彩图片

问题出在哪:我们描述的是"东西",不是"画面"

作者原本用Gemini的默认图像生成器Nano Banana,觉得比ChatGPT更省心,"第一次尝试就更接近想要的效果"。但她从没认真想过提示词本身的问题。

她的典型写法:"一只毛茸茸的橘猫在玩球,水彩风格。"

这种描述覆盖了基础四要素——主体、风格、动作、场景。Gemini官方推文把这叫"故事、主体、风格"框架。但作者发现,这个框架有个天花板:它能保证图" decent( decent)",也就是 decent,但 decent 就是 decent,不是好。

核心矛盾:AI图像生成器不是搜索引擎。你不是在"检索"一张猫图,而是在"构建"一个视觉场景。而构建需要工程思维,不是文学描述。

第一个升级:把"光线"写进提示词

Gemini推文建议增加的具体维度里,光线(lighting)被作者第一个测试。这是大多数人完全忽略的参数。

她对比了两组提示词:

基础版:"一只毛茸茸的橘猫在玩毛线球,水彩风格。"

升级版:"一只毛茸茸的橘猫在玩毛线球,水彩风格,黄金时段光线,柔和阴影。"

结果差异明显。基础版的猫"平面、缺乏生气",升级版"立刻更有氛围感"。黄金时段(golden hour)这个具体光线类型,让画面有了时间感和情绪。

作者继续实验其他光线类型:冷蓝色调的月光、戏剧性的侧光、柔光箱的均匀照明。每种都改变了图像的情绪基调,而不仅仅是亮度。

关键洞察:光线不是"让图更亮"的装饰,它是叙事工具。同一只猫,黄金时段是温馨家庭片,冷蓝月光是神秘夜行动物,戏剧性侧光是纪录片质感。

第二个升级:构图从"有"变成"精确控制"

Gemini推文提到的第二个维度是构图(composition)。作者承认自己以前"几乎从不考虑这个"。

她测试了三种具体构图指令:

极端特写(extreme close-up):画面聚焦猫的眼睛和胡须,毛线球虚化成色块。适合表现质感。

鸟瞰视角(bird's eye view):从正上方拍摄,猫和毛线球构成几何图案。适合表现关系。

三分法构图(rule of thirds):猫位于画面左侧交点,右侧留白给毛线球的运动轨迹。适合表现动态。

作者发现,构图指令比光线更"挑食"——不是所有构图词都能被准确执行,但一旦生效,画面专业度提升显著。极端特写和三分法的成功率最高,鸟瞰视角偶尔会被AI理解为"稍微高一点的角度"。

实用技巧:作者建议优先使用摄影领域的标准术语,比如"浅景深(shallow depth of field)"比"背景模糊"更稳定,"广角镜头透视"比"从下面拍"更可控。

第三个升级:字体和文字不再是灾难区

AI图像生成最臭名昭著的问题:文字渲染。作者原本"完全避免在图中加入文字",因为结果总是"扭曲的象形符号"。

但Gemini推文明确建议尝试指定字体(fonts)。作者决定挑战这个雷区。

她的测试提示词:"一张复古海报,主体是那只橘猫,文字'Whiskers'用手写体(handwritten font)写在顶部,'Est. 2024'用衬线字体(serif font)写在底部。"

结果出人意料:"Whiskers"基本可读,虽然字母间距不均匀;"Est. 2024"几乎完美。作为对比,她去掉字体指定,只写"顶部写Whiskers,底部写Est. 2024",结果是一团无法辨认的曲线。

关键发现:字体指定不仅提升了可读性,还改变了整体设计风格。手写体让海报像手工咖啡馆的招牌,衬线体让它像百年老店的历史感。AI似乎能关联字体类型与视觉风格。

限制条件:作者测试了5-6个提示词,短单词(5-8个字母)成功率约60%,长单词或句子仍然混乱。全部大写比混合大小写更稳定。

第四个升级:材质和表面细节

这是作者自己扩展的维度,不在Gemini推文的核心建议里,但测试中发现价值显著。

她在提示词中加入具体材质描述:"毛线球是粗纺羊毛质感,有可见的纤维分叉","猫的毛发在逆光下呈现半透明边缘"。

这些细节不会出现在基础提示词的输出中。AI默认生成的是"概念的毛线球"和"概念的猫",表面光滑、特征平均。材质描述迫使AI进入"渲染模式",计算光线在特定表面的行为。

副作用:材质描述会显著增加生成时间,且对提示词位置敏感。放在主体描述之后、风格描述之前效果最佳。

第五个升级:负面提示词的反向工程

Gemini推文没有提到负面提示词(negative prompts),但作者在实验中发现这个技巧对Nano Banana同样有效。

她的使用场景:当AI持续生成某种不想要的特征时,不是反复修改正面描述,而是直接禁止。

例如,她的猫图持续出现"过度卡通化的眼睛",于是在提示词末尾添加:"避免:卡通风格眼睛,人类般的表情,纯黑色瞳孔"。

成功率约70%。失败案例中,AI要么忽略负面指令,要么过度补偿(比如把眼睛画得过小)。

作者建议:负面提示词要具体,避免抽象概念。"避免:丑"毫无作用,"避免:不对称的面部特征"相对有效。

升级后的完整工作流

作者把实验整理成一个可复用的提示词模板:

[主体描述,含材质细节] + [具体光线类型] + [精确构图] + [艺术风格] + [可选:文字内容+字体] + [可选:负面限制]

实例对比:

升级前:"一只猫在玩毛线球,水彩风格。"

升级后:"一只毛茸茸的橘白相间虎斑猫,粗纺羊毛质感的毛线球,黄金时段侧逆光,浅景深特写聚焦猫爪与毛线缠绕的瞬间,水彩风格但保留铅笔素描底稿痕迹,画面底部用小写无衬线字体标注'paws & threads',避免:卡通化表情,纯白色背景,过度饱和色彩。"

作者承认后者"读起来像技术文档,不像人话",但输出结果"从'能用的图'变成'想保存的图'"。

为什么这些技巧对Gemini/Nano Banana特别有效

作者提到自己"一直用Gemini而不是ChatGPT做图",原因是"第一次尝试就更接近想要的效果"。这个观察指向一个关键差异:不同模型的提示词敏感度不同。

她的假设:Nano Banana对结构化提示词响应更好,而ChatGPT(DALL-E)对自然语言描述更宽容。这意味着Gemini用户从提示词工程中获益更大——也更需要掌握这些技巧。

她没有测试ChatGPT是否对同样升级后的提示词有类似响应,但暗示了这种可能性:如果ChatGPT已经"足够好",用户可能缺乏动力去精细化提示词,反而错过突破质量天花板的机会。

实用建议:从哪个维度开始

作者给出一个优先级排序,基于"投入产出比":

第一优先:光线。学习成本低(掌握5-10个光线术语),视觉效果提升最显著。

第二优先:构图。需要一点摄影基础知识,但能立即区分"业余快照"和"有意设计"。

第三优先:材质细节。适合特定场景(产品图、质感表现),日常用途提升有限。

第四优先:字体。风险高、成功率不稳定,但一旦成功解锁新用例(海报、封面、表情包)。

负面提示词:作为修正工具,而非起点。

最后的意外发现

作者在实验过程中注意到一个现象:当提示词足够具体时,AI开始表现出"创造性解释"——不是机械执行指令,而是在约束条件下做出设计选择。

例如,指定"黄金时段光线"和"水彩风格"后,AI自动选择了暖色调调色板,这是她没有明确要求的。指定"三分法构图"时,AI自行决定了猫应该看向画面右侧还是左侧,以平衡视觉重量。

这引发她的一个判断:提示词工程的最高境界,不是把AI变成精密仪器,而是建立一种"有约束的合作关系"——你设定边界,AI在边界内发挥。边界越清晰,AI的发挥空间反而越有价值。

她最后提到,自己"仍在学习",并计划继续实验色彩理论术语(互补色、单色调)和更复杂的场景描述。但光是已经掌握的这些技巧,已经让她的AI出图"从 decent 变成真正满意"。

所以下次你写提示词时,试着把"一只猫"改成"一只橘白相间虎斑猫,黄金时段侧逆光,浅景深特写,粗纺羊毛质感的毛线球"——然后看看AI给你什么。可能和你想象的完全不同,但更好的那种不同。