出品|搜狐科技
作者|常博硕
编辑| 杨 锦
美国当地时间4月21日,OpenAI正式发布新一代图像生成模型ChatGPT Images 2.0(以下简称 Images 2.0)。
OpenAI首席执行官山姆·奥特曼在直播中将此次更新描述为从“穴居人壁画”向“文艺复兴”,他表示这次的进步程度可以类比为从GPT-3到GPT-5的飞跃。此次,Images 2.0一发,直接巩固了OpenAI 在创意生成领域的领导地位。
在此之前,谷歌的Nano Banana 2(即 Gemini 3.1 Flash Image)和Anthropic的Claude Design基本占据了生图的大部分市场。虽然多模态模型的能力一直在进步,但AI图像生成长期以来还是面临文字渲染能力不足、物理逻辑缺失等问题。但现在,这些问题在Images 2.0面前,统统不算问题了。
马斯克看见都要吓一跳
在Images 2.0正式发布前,OpenAI就曾以 maskingtape-alpha、gaffertape-alpha 和 packingtape-alpha 为代号在LM Arena平台进行了秘密的灰度测试,当时模型的早期表现就已经能称得上惊人了。
搜狐科技对正式版本进行了深入实测,模型确实在多个关键维度上实现了生产力级别的突破。
没错,这是一张在Images 2.0生成的微博热搜图。在DALL-E3和GPT Image 1.5时代,面对长句子、复杂排版或特定字体要求时,模型经常会出现笔画扭曲和拼写错误,尤其是涉及中文,直接就变成“鬼画符”,但现在Images 2.0彻底打破了这一瓶颈。
没错,搜狐科技和搜狐科技年度论坛就这样“水灵灵”地喜提热搜了。
不过从图片生成的内容来看,信息更新得并不是很及时,知识依然停留在去年。
Images 2.0的细节表达与控制能力也十分优秀。比如,我们可以试着生成一堆大米,但是要求其中一粒米上刻着“GPT Image 2”,大小刚好能容纳在这粒米上。
当你将图片放大,就会发现上面刻着清晰的“GPT Image 2”。
官方表示,在 API 中,其输出分辨率最高可达 2K,也就是说对于设计工作者,直接可以拿来即用了。
甚至,我们可以让它生成一张抖音视频截图。
这个逼真程度,只能用恐怖来形容了。如果仔细看的话我们会发现右上角的运营商标识处有一点模糊,马斯克的头像好像也有点奇怪,但这些小细节其实完全不影响图片整体效果。
如果乍一看,马斯克来了可能都要吓一跳。
除此之外,我们还可以生成一些细节更丰富的图片,比如“用手机拍摄一张写实风格的手写文章照片,文章是用铅笔写的,字迹粗犷而优雅,但略显凌乱不均,写在一张 8.5x11 英寸的横格纸上,内容是关于多伦多棒球的历史。确保字迹呈现出非常自然的变化。在右上角添加一点咖啡渍。”
这个效果,第一眼完全看不出来是AI生图啊!
稳稳接住多语言和不同风格
除此之外,Images 2.0还拥有强大的多语言理解能力,在日语、韩语、中文、印地语和孟加拉语方面,它不仅能正确渲染带有非英语文本的图像,还能使语言流畅连贯。
像这样的韩国海报,或者是一张中文漫画,都可以一次性生成。
这张官方海报实在是太搞笑了,原来官方一直都知道ChatGPT喜欢用“稳稳接住”这种油腻词汇。
另外,漫画中的男生的原型其实是OpenAI研究科学家陈博远,江苏人,本科毕业于伯克利,后于麻省理工取得博士学位。陈博远的研究侧重于世界模型、具身智能和强化学习,也是为数不多的从事训练GPT图像生成模型的研究者之一。
除此之外,在中文测试中,模型生成的汉字还能够根据需求切换宋体、黑体或手写体等多种风格。
在视觉风格上,Images 2.0也能够更好地捕捉照片的特征,包括一些增加真实感的细微瑕疵同时在纹理、光照、构图和细节方面保持更高的一致性。据官方表示,,模型能够生成更真实反映用户所需风格的输出。这对于游戏原型设计、故事板绘制、营销创意等类型的素材创作尤为有用。
搜狐科技也试着让它生成了一张塞尔达风格的北京景点地图,在只有一句话指令的情况下,模型生成图片的细节依然很不错。
还有在官方给出的示例中,让模型生成一张2015年UBC 的一个阶梯教室里,一位教授正在展示关于GPT image 2和照片级真实感图像的幻灯片。幻灯片上,教授正在展示关于 GPT image 2的幻灯片,如此循环往复,永无止境。
可以看到,图像在还原内容之外,还能精准复刻我们想要的老照片的风格。
实测表明,Images 2.0彻底移除了GPT Image 1.5时代饱受诟病的“AI黄”现象。新模型的色彩表现更加趋向于中性与真实。在生成闪光灯下的人像摄影、电影感剧照以及极简主义建筑图时,暗部细节的处理非常扎实,不再出现那种过度锐化或色彩溢出的数码味。
同时,模型对于手部、关节、阴影反射的刻画也达到了极高的精细度,手指的比例与肌肉纹理能够展现得更加自然。此外,模型还引入了细微的写实瑕疵,比如皮肤上的汗毛、衣物的细碎褶皱或环境中的微尘,这些细节反而增强了图像的沉浸感 。
会思考的生图模型
为了应对最复杂的任务,Images 2.0 还具备思考能力。当在 ChatGPT 中选择thinking或 pro 模式时,Images 2.0可以调用网络获取实时信息,从一个提示中生成多个不同版本的图像,并对自身输出进行二次检查。
以往, AI生成模型很难维持同一角色或场景在多张图像中的一致性。但现在,通过“思维模式”,模型可以一次性生成8张具有视觉连续性的图像。同时,支持从3:1横幅宽图到1:3竖版长图,覆盖Twitter横幅、Instagram Stories、LinkedIn方图、手机壁纸等主流尺寸。
也就是说,如果想一次性生成适配不同平台的海报或者封面,只需要和模型对话一次就可以了,不需要再像之前一样重复交互。
Images 2.0也已打通至Codex工作区,开发者无需单独配置 API 密钥,即可在同一环境中完成设计生成与开发落地。API 侧由 gpt-image-2 提供支持,面向本地化营销素材、信息可视化以及教育内容等企业级需求。
虽然很厉害,但Images 2.0也并不是没有缺陷。
目前,折纸步骤图、魔方展开图这类需要完整物理世界模型的任务对它来说还是比较困难的,还有对于那些需要在被遮挡、倾斜或反向表面上准确呈现的细节,生图也并不准确。
还有就是像细沙粒这样非常密集或重复的视觉细节,官方也承认这种细节超出了模型的处理能力。
回看Open AI在多模态上的探索,GPT-4o解决了理解和输入输出统一的问题,让AI不再只是把文字翻译成图片,具备了跨模态的统一逻辑。Images 2.0则解决的是确定性问题。创作者不需要抽卡,而是需要 AI 听指挥、能改细节、能直接用于商业工作流,真正实现可控、可用甚至可交付。
OpenAI正在向全球创作者宣告,AI生图正式转变为一项能够理解复杂意图、完成专业视觉任务的生产力支柱。
运营编辑 |曹倩审核|孟莎莎
热门跟贴