打开网易新闻 查看精彩图片

OpenAI 深夜放大招!GPT-4o原生图像生成 API 正式开放,高清、可控、强编辑!

一句话形容:这是比web端更Pro的版本!

打开网易新闻 查看精彩图片

API换了一个新名字叫gpt-image-1,这意味着,之前在 ChatGPT 里让无数人惊艳的图像生成能力,现在可以被全球开发者集成到自己的应用和工作流里了

但是:要使用gpt-image-1,开发者需要先完成 [组织验证,仅支持OpenAI官方支持的国家和地区验证]

根据OpenAI的说法上个月 ChatGPT 图像功能刚推出时,第一周就有 1.3 亿用户创作了超过 7 亿张图片。这次 API 开放的gpt-image-1,正是驱动 ChatGPT 图像体验的那个原生多模态模型

下面我给给大家详细解读一下这个API

API 版有啥不一样?

相比 ChatGPT 版本,API 版给了开发者更多精细控制的选项:

审核敏感度可调:通过moderation参数(可选auto默认 或low低限制)控制内容过滤的严格程度

平衡质量与速度:可以指定qualitylow,medium,high,auto)来权衡生成速度和图像细节

输出定制化:支持指定图像尺寸(1024x1024方形,1024x1536竖版,1536x1024横版,auto默认)、输出格式(png,jpeg,webp)、压缩率(jpeg/webp可设 0-100%),甚至背景透明(background: 'transparent')!这对需要 P 图、做素材的场景简直是福音(透明背景建议mediumhigh质量)

gpt-image-1核心优势:

✅ 高保真、更准确:图像质量和细节表现出色
视觉风格多样:能驾驭多种艺术风格
✏️ 精准图像编辑:强大的编辑能力
丰富世界知识:能理解并运用现实世界知识创作
✍️ 文字渲染更强:在图像中准确渲染文字的能力有显著提升。

生态合作:已有多家大厂和初创在用

OpenAI 展示了众多合作伙伴的早期应用案例,覆盖创意工具、电商、教育、企业软件、游戏等领域:

创意设计:Adobe (Firefly, Express)、Figma、Canva 都在集成,让用户直接在工具内生成、编辑图像,调整风格、增删物体、扩展背景等

adobe:

打开网易新闻 查看精彩图片

Figma:

打开网易新闻 查看精彩图片

营销与内容创作:Airtable 助力营销团队管理素材工作流;HubSpot 探索生成营销/销售资料;OpusClip Thumbnail 为 YouTube 创作者生成定制化缩略图;GoDaddy 尝试生成 Logo、去背景、生成社媒帖子

Airtable:

打开网易新闻 查看精彩图片

OpusClip:

打开网易新闻 查看精彩图片

效率工具:Gamma 每天生成超 500 万张 AI 图片用于演示和网站;Wix 将其集成到 AI 设计平台 Wixel

Gamma:

打开网易新闻 查看精彩图片

Wix:

打开网易新闻 查看精彩图片

电商:Photoroom 利用它推出 Product Beautifier、Product Staging 等工具,帮卖家快速生成专业商品图、场景图

打开网易新闻 查看精彩图片

虚拟形象与视频:HeyGen 用它增强虚拟人编辑;InVideo 用它改进视频中的文字生成和编辑控制

打开网易新闻 查看精彩图片

知识平台:Quora 将gpt-image-1设为默认图像模型,提升平台图像质量

打开网易新闻 查看精彩图片

生活服务:Instacart 测试用它生成食谱和购物清单的图片

API 核心功能一览

目前图像生成主要通过Images API提供(未来会支持Responses API):

图像生成 (Generations):根据文本提示 从零生成图像。可设置n一次生成多张

图像编辑 (Edits)

a.基于参考图生成:可传入一张或多张现有图片 作为参考,结合提示生成新图(例如,提供几个单品图,生成包含这些单品的礼品篮图)

b.局部修改 (Inpainting):上传原图和一张蒙版图 (mask),蒙版的透明区域会被根据提示重新绘制,黑色区域保持不变。注意:prompt需要描述完整的最终图像,而非仅修改区域。蒙版图需与原图尺寸格式一致,且带 Alpha 通道

模型选择:

虽然 API 也支持 DALL·E 2 (支持 Variations 功能) 和 DALL·E 3 (高质量),但 OpenAI推荐使用gpt-image-1,因为它在指令遵循、文字渲染、细节编辑和利用世界知识方面更胜一筹。

成本

gpt-image-1按 Token 计费,分为三部分:

【文本输入 Token : $5 / 1M tokens】

【图像输入 Token (用于编辑的参考图)|: $10 / 1M tokens|】

【图像输出 Token (生成的图像): $40 / 1M tokens】

实际换算下来,生成一张方形图的大致成本:

  • • Low Quality: 约 $0.02 (272 tokens)

  • • Medium Quality: 约 $0.07 (1056 tokens)

  • • High Quality: 约 $0.19 (4160 tokens),人民币超过1元了

不同尺寸和质量的 Token 数不同,具体可查阅文档。成本与图像尺寸、质量成正比

局限性提醒

虽然强大,gpt-image-1仍有一些需注意的限制:

延迟:复杂提示可能需要长达 2 分钟处理

文字渲染:虽有改进,但精确放置和清晰度仍可能遇到挑战

一致性:跨多代生成保持角色或品牌元素的一致性有时会困难

构图控制:对于需要精确布局的场景,模型可能难以完全按指令放置元素

体验及图像生成指南

前往 [Playground]

https://platform.openai.com/playground) 体验

另外OpenAI提供了详细的API 图像生成指南

https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1

one more thing

Sam Altman 亲自发话:Plus 用户速率翻倍!

就在大家消化图像 API 消息的同时,OpenAI CEO Sam Altman 又在 X 上宣布了一个好消息:

"我们已将 ChatGPT Plus 订阅用户的 o3和 o4-mini-high 的速率限制提高了一倍。尽情享用吧!我们确实在努力听取反馈!"

打开网易新闻 查看精彩图片

他还提到,这背后是在速率限制、新功能发布和延迟之间做的艰难权衡,并表示 "GPU 正在路上,希望情况会变得更好"

参考:

https://openai.com/index/image-generation-api/

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞