今年3月,ChatGPT悄悄换了默认图像引擎。不是DALL·E,而是一个叫GPT图像二代的新模型——它把图像生成直接塞进对话流,能听懂"左边放标题、右边换张图、按钮用品牌蓝"这种连续指令。这到底改变了什么?我按官方指南完整跑了一遍流程。
它不再是"画图工具",而是"能看图说话的设计协作者"
过去用DALL·E 3,你得把需求一次性说完。改一次重新生成,上下文断得干干净净。
GPT图像二代(gpt-image-2)的架构差异在于:它原生嵌在GPT-4o里,图像和文本用同一套推理逻辑处理。官方文档的原话是:"it reasons about images and text together"——它对图像和文本进行联合推理。
对网页设计师来说,这带来三个可感知的变化:
第一,文字渲染准确率显著提升。实测中,界面里的按钮标签、导航文案、数据图表的数值,出错率比前代低一个数量级。
第二,多轮对话迭代成为可能。你可以先生成线框图,再指令"把侧边栏改成深色模式",系统会保留布局结构只改配色——而不是像抽卡一样重Roll一张。
第三,复杂提示词的遵循度更高。官方建议"给它的细节程度要和 briefing 真人设计师一样",反过来也说明:模糊指令会浪费它的能力。
两种接入方式,对应两种工作流
设计师最轻量的入口是ChatGPT本身。今年3月起,Plus/Pro/Team/免费用户都默认调用GPT图像二代,直接在对话框输入设计需求即可。
但如果你想把AI塞进自己的设计工具链,需要调用OpenAI的API。这里分两条技术路线:
路线一:图像API(单次生成)。适合批量出图、固定模板的场景。代码层面指定model="gpt-image-2",设置尺寸(官方示例用1536x1024)、质量档位、生成数量,返回base64编码的图片数据。
路线二:应答API(多轮对话)。这是迭代式设计的关键。你在input字段描述需求,tools参数声明调用图像生成能力,系统返回的输出流里会包含image_generation_call类型的结果。核心优势在于:同一次对话session里,你可以基于上一张图继续下指令。
官方示例的对比很直观:用应答API生成落地页首屏后,你可以追加"把CTA按钮从蓝色换成橙色,文案改成'立即试用'"——模型理解这是同一张图的局部修改,而非全新创作。
提示词工程:从"许愿"到"briefing"
官方文档放了两组提示词对比,差距悬殊:
差版本:"Make a website homepage"(做一个网站首页)
好版本包含:具体场景(SaaS落地页首屏)、色彩规范(深海军蓝背景#0A0F1E)、布局结构(左对齐)、文案层级(大标题+灰色副标题)、甚至交互元素(CTA按钮)。
这种结构化表达不是"技巧",而是匹配模型能力的必要输入。GPT图像二代的上下文窗口和推理深度,让它能消化真人设计师级别的brief——但前提是你真的写了那么多。
实测中,我尝试用同一组需求分别投喂两代模型。DALL·E 3对"数据图表"的理解经常跑偏成装饰性图形;GPT图像二代能生成带坐标轴、图例、近似数值的柱状图,虽然数据是随机的,但视觉结构正确,可直接进Figma当占位符。
网页设计的四个落地场景
官方指南划定了GPT图像二代在网页工作流中的具体位置,不是替代设计师,而是压缩重复劳动:
场景一:线框图与原型。用自然语言描述信息架构,快速生成低保真布局。重点不是美观,是验证"这个层级关系是否合理"。
场景二:UI mockup。在确定的设计系统内生成高保真界面。你可以指定"用Tailwind的slate色系",模型会输出符合该色彩逻辑的配色方案。
场景三:设计资产。图标、插图、空状态图形、社交分享图。这些原本需要打开Illustrator或委托插画师的任务,现在可以用对话完成多轮微调。
场景四:首屏大图与营销素材。产品截图背景、团队虚拟形象、场景化配图。官方特别提醒:涉及真实人物肖像时需注意合规边界。
一个被低估的细节:文本渲染的可靠性
网页设计中有大量"带字图形"——按钮、标签、徽章、数据卡片。传统AI绘图模型的文本渲染是概率性的,"Submit"可能变成"Subm1t"或"Sbmit"。
GPT图像二代没有彻底解决这个问题,但官方将其列为"significantly better"(显著改善)的能力项。实测中,短单词(6个字母以内)的准确率接近可用级别,长句仍建议后期用Figma/Sketch覆盖。
这意味着:它可以承担"视觉占位"任务,但正式上线前的文字精修环节不可跳过。
API定价与成本估算
官方文档未公开具体价格表,但明确了两个计费维度:图像尺寸(1024x1024、1536x1024等)和质量档位(standard/high)。高分辨率+高质量的组合适合最终交付物,低保真迭代可用标准档控制成本。
对于日均生成50张图的设计团队,建议用应答API的会话机制减少重复生成——相比每次从零开始的图像API,多轮对话能显著降低token消耗。
当前能力的边界
官方指南坦诚列出了限制:复杂交互状态(hover、动画关键帧)无法直接输出;设计系统的全局一致性需要人工校验;生成图的图层结构是扁平的,无法直接导出可编辑的SVG或分层PSD。
这些不是"缺点",而是定位问题。GPT图像二代是设计流程的加速器,不是设计工具的替代品。它的产出物进入Figma、Webflow、代码仓库之前,仍需设计师的专业判断。
数据收束:3月、API、1536x1024
梳理关键事实:2025年3月,GPT图像二代成为ChatGPT全量用户的默认图像引擎;开发者通过OpenAI API接入时,需在model字段明确指定"gpt-image-2";官方示例代码中高频出现的输出尺寸是1536x1024——一个接近16:10、适合网页首屏的宽高比。
这三个数字勾勒出产品落地的时空坐标:它不是实验室demo,而是已开放商业调用的生产工具。对25-40岁的科技从业者来说,问题不再是"AI能不能做设计",而是"我的设计流程里,哪些环节值得用API重新串一遍"。
热门跟贴