4月22日,OpenAI正式发布ChatGPT Images 2.0,这是其图像生成技术的重大升级。新版本由全新的旗舰图像生成模型驱动,在详细指令遵循、对象精确放置与关系处理、密集文本渲染等方面实现质的飞跃,被称为“图像生成领域的步进式变革”。
ChatGPT Images 2.0在多个核心能力上显著提升:
更强的指令遵循与复杂视觉任务处理,能够准确放置和关联图像中的对象,理解精细的风格约束,支持生成多种宽高比;
近乎完美的文本渲染,文本准确率大幅提升,特别适合生成带文字的海报、UI界面、截图等实用场景;
精确编辑与细节保留,无论是从零创建还是编辑现有照片,都能精准实现用户意图,同时保持人物面部特征、关键细节等一致性;
生成速度翻倍,图像生成速度接近前代模型的两倍,让用户能更快地迭代创意;
多语言支持与世界知识增强,在非英语提示下表现更优,利用扩展的视觉和世界知识自动填充细节,用户无需过多提示即可获得更智能、更贴合预期的图像;
独特视觉风格捕捉,更好地还原照片、电影定格、像素艺术、漫画等特定视觉语言。
此外,ChatGPT Images 2.0还是OpenAI首款具备“思考能力”的图像模型。当选择思考模式时,它可以搜索实时网络信息、从单一提示生成多个不同图像,并对自身输出进行双重检查,进一步提升输出质量和实用性。
OpenAI表示,这一新模型不仅适用于艺术创作,还特别擅长生成“立即可用”的实用视觉内容,如复杂布局的UI设计、带密集文字的图表、真实感强的截图等。用户反馈显示,其在照片级真实感、空间推理和微小细节上的表现均有明显进步。
新功能已开始向ChatGPT用户逐步推送:基础图像生成功能开放给所有ChatGPT用户;具备“思考能力”的高级图像生成,则面向ChatGPT Plus、Pro和Business用户。同时在ChatGPT应用中新增独立的“Images”入口,方便用户直接进入创意探索模式。
这一发布标志着OpenAI在多模态AI领域的持续领先,预计将为内容创作、教育、设计等行业带来更多创新应用。用户现已可在ChatGPT中体验这一最新图像生成技术。
热门跟贴