我按Gemini建议改提示词，出图质量直接翻倍

码上闲叙

2026-04-24 10:55 ·北京

你写"一只橘猫在玩球，水彩风格"，AI给你一张能用的图。但也就只是"能用"——和惊艳没关系。

直到我看到Gemini官方发的一条推文，才发现自己一直在用"新手模式"写提示词。问题是，大多数人跟我一模一样。

问题出在哪：我们描述的是"东西"，不是"画面"

作者原本用Gemini的默认图像生成器Nano Banana，觉得比ChatGPT更省心，"第一次尝试就更接近想要的效果"。但她从没认真想过提示词本身的问题。

她的典型写法："一只毛茸茸的橘猫在玩球，水彩风格。"

这种描述覆盖了基础四要素——主体、风格、动作、场景。Gemini官方推文把这叫"故事、主体、风格"框架。但作者发现，这个框架有个天花板：它能保证图" decent（ decent）"，也就是 decent，但 decent 就是 decent，不是好。

核心矛盾：AI图像生成器不是搜索引擎。你不是在"检索"一张猫图，而是在"构建"一个视觉场景。而构建需要工程思维，不是文学描述。

第一个升级：把"光线"写进提示词

Gemini推文建议增加的具体维度里，光线（lighting）被作者第一个测试。这是大多数人完全忽略的参数。

她对比了两组提示词：

基础版："一只毛茸茸的橘猫在玩毛线球，水彩风格。"

升级版："一只毛茸茸的橘猫在玩毛线球，水彩风格，黄金时段光线，柔和阴影。"

结果差异明显。基础版的猫"平面、缺乏生气"，升级版"立刻更有氛围感"。黄金时段（golden hour）这个具体光线类型，让画面有了时间感和情绪。

作者继续实验其他光线类型：冷蓝色调的月光、戏剧性的侧光、柔光箱的均匀照明。每种都改变了图像的情绪基调，而不仅仅是亮度。

关键洞察：光线不是"让图更亮"的装饰，它是叙事工具。同一只猫，黄金时段是温馨家庭片，冷蓝月光是神秘夜行动物，戏剧性侧光是纪录片质感。

第二个升级：构图从"有"变成"精确控制"

Gemini推文提到的第二个维度是构图（composition）。作者承认自己以前"几乎从不考虑这个"。

她测试了三种具体构图指令：

极端特写（extreme close-up）：画面聚焦猫的眼睛和胡须，毛线球虚化成色块。适合表现质感。

鸟瞰视角（bird's eye view）：从正上方拍摄，猫和毛线球构成几何图案。适合表现关系。

三分法构图（rule of thirds）：猫位于画面左侧交点，右侧留白给毛线球的运动轨迹。适合表现动态。

作者发现，构图指令比光线更"挑食"——不是所有构图词都能被准确执行，但一旦生效，画面专业度提升显著。极端特写和三分法的成功率最高，鸟瞰视角偶尔会被AI理解为"稍微高一点的角度"。

实用技巧：作者建议优先使用摄影领域的标准术语，比如"浅景深（shallow depth of field）"比"背景模糊"更稳定，"广角镜头透视"比"从下面拍"更可控。

第三个升级：字体和文字不再是灾难区

AI图像生成最臭名昭著的问题：文字渲染。作者原本"完全避免在图中加入文字"，因为结果总是"扭曲的象形符号"。

但Gemini推文明确建议尝试指定字体（fonts）。作者决定挑战这个雷区。

她的测试提示词："一张复古海报，主体是那只橘猫，文字'Whiskers'用手写体（handwritten font）写在顶部，'Est. 2024'用衬线字体（serif font）写在底部。"

结果出人意料："Whiskers"基本可读，虽然字母间距不均匀；"Est. 2024"几乎完美。作为对比，她去掉字体指定，只写"顶部写Whiskers，底部写Est. 2024"，结果是一团无法辨认的曲线。

关键发现：字体指定不仅提升了可读性，还改变了整体设计风格。手写体让海报像手工咖啡馆的招牌，衬线体让它像百年老店的历史感。AI似乎能关联字体类型与视觉风格。

限制条件：作者测试了5-6个提示词，短单词（5-8个字母）成功率约60%，长单词或句子仍然混乱。全部大写比混合大小写更稳定。

第四个升级：材质和表面细节

这是作者自己扩展的维度，不在Gemini推文的核心建议里，但测试中发现价值显著。

她在提示词中加入具体材质描述："毛线球是粗纺羊毛质感，有可见的纤维分叉"，"猫的毛发在逆光下呈现半透明边缘"。

这些细节不会出现在基础提示词的输出中。AI默认生成的是"概念的毛线球"和"概念的猫"，表面光滑、特征平均。材质描述迫使AI进入"渲染模式"，计算光线在特定表面的行为。

副作用：材质描述会显著增加生成时间，且对提示词位置敏感。放在主体描述之后、风格描述之前效果最佳。

第五个升级：负面提示词的反向工程

Gemini推文没有提到负面提示词（negative prompts），但作者在实验中发现这个技巧对Nano Banana同样有效。

她的使用场景：当AI持续生成某种不想要的特征时，不是反复修改正面描述，而是直接禁止。

例如，她的猫图持续出现"过度卡通化的眼睛"，于是在提示词末尾添加："避免：卡通风格眼睛，人类般的表情，纯黑色瞳孔"。

成功率约70%。失败案例中，AI要么忽略负面指令，要么过度补偿（比如把眼睛画得过小）。

作者建议：负面提示词要具体，避免抽象概念。"避免：丑"毫无作用，"避免：不对称的面部特征"相对有效。

升级后的完整工作流

作者把实验整理成一个可复用的提示词模板：

[主体描述，含材质细节] + [具体光线类型] + [精确构图] + [艺术风格] + [可选：文字内容+字体] + [可选：负面限制]

实例对比：

升级前："一只猫在玩毛线球，水彩风格。"

升级后："一只毛茸茸的橘白相间虎斑猫，粗纺羊毛质感的毛线球，黄金时段侧逆光，浅景深特写聚焦猫爪与毛线缠绕的瞬间，水彩风格但保留铅笔素描底稿痕迹，画面底部用小写无衬线字体标注'paws & threads'，避免：卡通化表情，纯白色背景，过度饱和色彩。"

作者承认后者"读起来像技术文档，不像人话"，但输出结果"从'能用的图'变成'想保存的图'"。

为什么这些技巧对Gemini/Nano Banana特别有效

作者提到自己"一直用Gemini而不是ChatGPT做图"，原因是"第一次尝试就更接近想要的效果"。这个观察指向一个关键差异：不同模型的提示词敏感度不同。

她的假设：Nano Banana对结构化提示词响应更好，而ChatGPT（DALL-E）对自然语言描述更宽容。这意味着Gemini用户从提示词工程中获益更大——也更需要掌握这些技巧。

她没有测试ChatGPT是否对同样升级后的提示词有类似响应，但暗示了这种可能性：如果ChatGPT已经"足够好"，用户可能缺乏动力去精细化提示词，反而错过突破质量天花板的机会。

实用建议：从哪个维度开始

作者给出一个优先级排序，基于"投入产出比"：

第一优先：光线。学习成本低（掌握5-10个光线术语），视觉效果提升最显著。

第二优先：构图。需要一点摄影基础知识，但能立即区分"业余快照"和"有意设计"。

第三优先：材质细节。适合特定场景（产品图、质感表现），日常用途提升有限。

第四优先：字体。风险高、成功率不稳定，但一旦成功解锁新用例（海报、封面、表情包）。

负面提示词：作为修正工具，而非起点。

最后的意外发现

作者在实验过程中注意到一个现象：当提示词足够具体时，AI开始表现出"创造性解释"——不是机械执行指令，而是在约束条件下做出设计选择。

例如，指定"黄金时段光线"和"水彩风格"后，AI自动选择了暖色调调色板，这是她没有明确要求的。指定"三分法构图"时，AI自行决定了猫应该看向画面右侧还是左侧，以平衡视觉重量。

这引发她的一个判断：提示词工程的最高境界，不是把AI变成精密仪器，而是建立一种"有约束的合作关系"——你设定边界，AI在边界内发挥。边界越清晰，AI的发挥空间反而越有价值。

她最后提到，自己"仍在学习"，并计划继续实验色彩理论术语（互补色、单色调）和更复杂的场景描述。但光是已经掌握的这些技巧，已经让她的AI出图"从 decent 变成真正满意"。

所以下次你写提示词时，试着把"一只猫"改成"一只橘白相间虎斑猫，黄金时段侧逆光，浅景深特写，粗纺羊毛质感的毛线球"——然后看看AI给你什么。可能和你想象的完全不同，但更好的那种不同。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴