凌晨两点,我在Soku AI的后台盯着第47张生成的图——一张悬浮的精华瓶产品照,水滴的折射终于对了。过去一周,我的X时间线被火星宇航员和戴毛线帽的猫淹没,但我要解决的问题很具体:这玩意儿能不能替代3000美金的产品拍摄?

答案是能,但前提是你要会写提示词。网上流传的大多数演示追求的是"哇"效应,不是能直接上稿的成品。标题需要留白区,产品主图需要一致的光源,生活方式图需要那种"刚好拍到"的自然感——而默认模型偏偏抗拒这些。

打开网易新闻 查看精彩图片

我写了56组专门面向广告创意的提示词,涵盖产品主图、户外广告样机、带内嵌文案的社交广告、字体海报、平铺图、包装、品牌联名、编辑风。以下是7组我会直接丢给初级设计师的——复制粘贴就能用。

悬浮产品主图:光的方向必须写死

每个DTC品牌都需要这张图。诀窍是过度指定光源和表面材质,否则GPT Image 2会默认输出那种黏糊糊的"棚拍感"。

「Studio product photograph of a frosted glass skincare serum bottle with a black dropper, suspended mid-air against a soft peach gradient background. A single droplet of golden serum is frozen falling beneath the dropper. Hard rim light from the upper right, gentle reflected fill, subtle shadow on a bone-white acrylic surface below. Hyper-real macro detail on the brushed aluminum collar, condensation beads, packaging-shot quality. 4:3, centered composition, copy-safe negative space on the left third.」

为什么能出图:明确的光源方向(右上轮廓光)、明确的表面材质(骨白色亚克力)、明确的文案安全区(左侧三分之一)。模型停止猜测。

带内嵌文案的生活方式广告:括号占位符是精髓

GPT Image 2在字体排印上确实比前代强。你可以直接要求标题,它通常第一次就能搞定字距。

「A lifestyle ad creative for a premium water bottle brand. A woman hiking on a scenic mountain trail, holding the [water bottle] with a natural grip. Wide shot, golden hour light, lush green background. Tagline: 'BUILT FOR THE LONG WAY.' Bold white sans-serif text, lower third. Photorealistic. No watermarks, no extra text.」

为什么能出图:方括号占位符让你可以替换产品。"No watermarks, no extra text"这句是承重墙——没有它,模型会发明假品牌标志。

户外广告样机:别要"广告牌",要具体场景

比稿PPT靠这些活着。不要笼统地要"广告牌",要具体的物理语境。

「Photorealistic mockup of a massive curved LED billboard in Times Square at dusk, displaying an ad for a luxury skincare brand: an oversized close-up of a dewy face, a single product bottle, and short bold typography. Wet pavement reflections, ambient signage glow, blurred yellow taxis passing in the foreground. Cinematic 16:9, billboard occupying the upper-right two-thirds.」

为什么能出图:指定了"时代广场黄昏"这个具体场景,模型会自己填充出租车、潮湿地面这些可信细节。只说"城市广告牌"会得到塑料感渲染。

字体海报:把字当成图形处理

GPT Image 2对纯文字海报的理解有限,但你可以骗过它——把排版描述成视觉元素。

「Bold typographic poster for a music festival. Massive sans-serif word 'RESONANCE' in off-white, slightly distressed texture, centered on a deep forest green background. Smaller supporting text below in thin monospace: 'August 15-17, Brooklyn Navy Yard.' Generous margins, Swiss design aesthetic, screen-printed look.」

为什么能出图:指定了字体风格(无衬线、等宽)、纹理(轻微做旧)、设计血统(瑞士风格)。模型对"海报"这个词太泛,对"丝网印刷"有具体视觉记忆。

平铺图:俯拍角度要锁死

电商详情页必备。默认模型喜欢45度角,你得用物理描述强行压平视角。

「Overhead flat lay photograph of a minimalist skincare routine. Three products arranged on a raw linen surface: a cylindrical white cleanser tube, a small amber glass dropper bottle, a round tin of balm. Dried eucalyptus sprigs and a single marble stone as props. Soft diffused daylight from the left, subtle shadows beneath each item. 1:1 square format, ample breathing room around edges.」

为什么能出图:"Overhead"和"flat lay"双重锁定俯拍。"Breathing room"这个电商常用词让模型理解边缘留白,不会把产品撑满画框。

包装展示:打开状态比封闭更难

礼盒开箱图是转化利器,但模型默认输出封闭盒子。你得拆解结构。

「Premium unboxing scene for a chocolate gift set. Open rigid box with magnetic closure, lid propped at 45 degrees revealing nine truffles in individual black paper cups. One truffle half-eaten beside the box, showing ganache interior. Rich brown and gold color palette, shallow depth of field, dark slate surface. Editorial food photography style.」

为什么能出图:描述了盒子的机械结构(磁吸、45度支撑)、内容物排列(九格纸托)、甚至"咬了一半"这个叙事细节。模型需要这些锚点来构建空间关系。

品牌联名:虚构两个品牌的视觉嫁接

最烧脑的测试。让两个真实品牌"合作",看模型能否平衡双方视觉资产。

「Concept ad for a collaboration between a heritage outdoor brand and a Japanese craft coffee roaster. Vintage canvas backpack with leather straps, embroidered with a minimalist coffee cup icon. Product resting on weathered wooden bench, misty mountain background, early morning blue hour. Tagline: 'BREWED FOR THE TRAIL.' Small dual logos bottom right. Documentary photography feel.」

为什么能出图:指定了视觉嫁接方式(帆布包+刺绣图标)、氛围关键词(蓝调时刻、纪录片感),以及logo位置。模型对"联名"的理解是拼贴,你需要给它融合的逻辑。

一些硬边界

测完56组后,我整理了一份负面清单。这些场景目前别碰:需要精确文字内容的海报(模型会错字)、多人物互动的复杂场景(肢体穿模率高)、指定现有明星或IP(版权过滤触发)、透明液体与透明容器叠加(折射物理错误)。

另外,4:3和16:9比例比1:1更稳定。竖版9:16在复杂提示词下容易构图崩塌。

工作流建议

我不会让设计师直接用生成图交稿。当前最佳实践是:GPT Image 2出概念稿→选定方向→进Photoshop精修文字和细节→最终输出。这比从零拍摄快3倍,比素材网站改图快1.5倍,成本接近零。

那3000美金的产品拍摄呢?对于标准DTC视觉,它确实可以替代。对于需要模特互动、特殊材质或大型装置的场景,再等等。

56组提示词已整理成可搜索画廊,按场景和难度分级。链接在评论区置顶。