你输入一段英文提示词,AI吐出的却是北宋院体画的设色逻辑——这中间的翻译层到底发生了什么?

场景一:提示词的"文化压缩"

原文本只有两行:工笔重彩、湖畔园林、牡丹、鸳鸯。没有朝代、没有画家、没有"富贵吉祥"的寓意说明。

但GPT Image 2的渲染结果自带了完整语境——亭台的水口处理、牡丹的"翻瓣"结构、鸳鸯的雌雄配色。这些不是提示词写的,是训练数据里的文化惯性。

场景二:风格词的权重陷阱

"gongbi heavy color"被直译为"工笔重彩",但中文语境里这四个字自带技术规范:三矾九染、层层罩色、矿物颜料的不透明叠加。

AI执行的是视觉近似,而非工艺还原。你拿到的是"看起来像",不是"就是"。对从业者来说,这是两个完全不同的交付标准。

场景三:鸳鸯的符号过载

提示词只说"a pair of mandarin ducks",没提位置关系、互动姿态。但输出结果里几乎一定是并栖枝头、侧首回望——这是图像数据库里的高频构图,成了默认答案。

你想打破这个套路?得额外写"一只理羽、一只远眺"这类反惯性描述。提示词工程的本质,是和训练数据的偏见谈判。

数据收束

这段提示词共23个英文单词,触发了至少三层文化预设:画科传统、园林空间范式、吉祥图式惯例。AI图像生成的真正成本,不在算力,在提示词作者对隐性知识库的调用精度——而大多数人还在用"beautiful"和"detailed"交学费。