今年3月,ChatGPT悄悄换了默认图像引擎。不是DALL·E,而是一个叫GPT图像二代的新模型——它把图像生成直接塞进对话流,能听懂"左边放标题、右边换张图、按钮用品牌蓝"这种连续指令。这到底改变了什么?我按官方指南完整跑了一遍流程。

它不再是"画图工具",而是"能看图说话的设计协作者"

打开网易新闻 查看精彩图片

过去用DALL·E 3,你得把需求一次性说完。改一次重新生成,上下文断得干干净净。

GPT图像二代(gpt-image-2)的架构差异在于:它原生嵌在GPT-4o里,图像和文本用同一套推理逻辑处理。官方文档的原话是:"it reasons about images and text together"——它对图像和文本进行联合推理。

对网页设计师来说,这带来三个可感知的变化:

第一,文字渲染准确率显著提升。实测中,界面里的按钮标签、导航文案、数据图表的数值,出错率比前代低一个数量级。

第二,多轮对话迭代成为可能。你可以先生成线框图,再指令"把侧边栏改成深色模式",系统会保留布局结构只改配色——而不是像抽卡一样重Roll一张。

第三,复杂提示词的遵循度更高。官方建议"给它的细节程度要和 briefing 真人设计师一样",反过来也说明:模糊指令会浪费它的能力。

两种接入方式,对应两种工作流

设计师最轻量的入口是ChatGPT本身。今年3月起,Plus/Pro/Team/免费用户都默认调用GPT图像二代,直接在对话框输入设计需求即可。

但如果你想把AI塞进自己的设计工具链,需要调用OpenAI的API。这里分两条技术路线:

路线一:图像API(单次生成)。适合批量出图、固定模板的场景。代码层面指定model="gpt-image-2",设置尺寸(官方示例用1536x1024)、质量档位、生成数量,返回base64编码的图片数据。

路线二:应答API(多轮对话)。这是迭代式设计的关键。你在input字段描述需求,tools参数声明调用图像生成能力,系统返回的输出流里会包含image_generation_call类型的结果。核心优势在于:同一次对话session里,你可以基于上一张图继续下指令。

官方示例的对比很直观:用应答API生成落地页首屏后,你可以追加"把CTA按钮从蓝色换成橙色,文案改成'立即试用'"——模型理解这是同一张图的局部修改,而非全新创作。

提示词工程:从"许愿"到"briefing"

官方文档放了两组提示词对比,差距悬殊:

差版本:"Make a website homepage"(做一个网站首页)

好版本包含:具体场景(SaaS落地页首屏)、色彩规范(深海军蓝背景#0A0F1E)、布局结构(左对齐)、文案层级(大标题+灰色副标题)、甚至交互元素(CTA按钮)。

这种结构化表达不是"技巧",而是匹配模型能力的必要输入。GPT图像二代的上下文窗口和推理深度,让它能消化真人设计师级别的brief——但前提是你真的写了那么多。

实测中,我尝试用同一组需求分别投喂两代模型。DALL·E 3对"数据图表"的理解经常跑偏成装饰性图形;GPT图像二代能生成带坐标轴、图例、近似数值的柱状图,虽然数据是随机的,但视觉结构正确,可直接进Figma当占位符。

网页设计的四个落地场景

官方指南划定了GPT图像二代在网页工作流中的具体位置,不是替代设计师,而是压缩重复劳动:

场景一:线框图与原型。用自然语言描述信息架构,快速生成低保真布局。重点不是美观,是验证"这个层级关系是否合理"。

场景二:UI mockup。在确定的设计系统内生成高保真界面。你可以指定"用Tailwind的slate色系",模型会输出符合该色彩逻辑的配色方案。

场景三:设计资产。图标、插图、空状态图形、社交分享图。这些原本需要打开Illustrator或委托插画师的任务,现在可以用对话完成多轮微调。

场景四:首屏大图与营销素材。产品截图背景、团队虚拟形象、场景化配图。官方特别提醒:涉及真实人物肖像时需注意合规边界。

一个被低估的细节:文本渲染的可靠性

网页设计中有大量"带字图形"——按钮、标签、徽章、数据卡片。传统AI绘图模型的文本渲染是概率性的,"Submit"可能变成"Subm1t"或"Sbmit"。

GPT图像二代没有彻底解决这个问题,但官方将其列为"significantly better"(显著改善)的能力项。实测中,短单词(6个字母以内)的准确率接近可用级别,长句仍建议后期用Figma/Sketch覆盖。

这意味着:它可以承担"视觉占位"任务,但正式上线前的文字精修环节不可跳过。

API定价与成本估算

官方文档未公开具体价格表,但明确了两个计费维度:图像尺寸(1024x1024、1536x1024等)和质量档位(standard/high)。高分辨率+高质量的组合适合最终交付物,低保真迭代可用标准档控制成本。

对于日均生成50张图的设计团队,建议用应答API的会话机制减少重复生成——相比每次从零开始的图像API,多轮对话能显著降低token消耗。

当前能力的边界

官方指南坦诚列出了限制:复杂交互状态(hover、动画关键帧)无法直接输出;设计系统的全局一致性需要人工校验;生成图的图层结构是扁平的,无法直接导出可编辑的SVG或分层PSD。

这些不是"缺点",而是定位问题。GPT图像二代是设计流程的加速器,不是设计工具的替代品。它的产出物进入Figma、Webflow、代码仓库之前,仍需设计师的专业判断。

数据收束:3月、API、1536x1024

梳理关键事实:2025年3月,GPT图像二代成为ChatGPT全量用户的默认图像引擎;开发者通过OpenAI API接入时,需在model字段明确指定"gpt-image-2";官方示例代码中高频出现的输出尺寸是1536x1024——一个接近16:10、适合网页首屏的宽高比。

这三个数字勾勒出产品落地的时空坐标:它不是实验室demo,而是已开放商业调用的生产工具。对25-40岁的科技从业者来说,问题不再是"AI能不能做设计",而是"我的设计流程里,哪些环节值得用API重新串一遍"。