热知识:这些图都是GPT-4o生成的。

3月25日凌晨,又到了AI厂商们每月开卷的时间!这次OpenAI终于放出了憋了一年的大招——GPT-4o图像生成功能正式上线了,目前正开始在ChatGPT和Sora中向所有Plus、Pro、Team和Free用户推出。

记得去年4o发布时,OpenAI就精准“狙击”了谷歌的年度开发者大会。所以这次的更新也巧得很,一是回击谷歌Gemini上周更新的图像生成模型,二是狙击同样在今天发布的Gemini 2.5 Pro模型——这是谷歌当前最新最强的推理模型,支持多模态,强化了编程能力(类似Claude 3.7和最新的DeepSeek 0324),我们会另外报道。

本次升级,除了基本的图像生成能力很强以外,还有些值得一提的特性:

- 多轮生成:在聊天上下文中构建图像和文本,确保整体一致性。例如我们要设计一个游戏或者动漫角色,随着不断细化和实验,这个角色的外观也可以在整个迭代过程中保持一致。

- 指令跟随:4o的图像生成遵循详细的提示,注重细节。与其他系统相比,4o可以在一次生成中处理多达10-20个不同的对象,而其他系统在处理5-8个对象时往往会遇到困难。

- 上下文学习:4o可以从用户上传的图片中分析和学习,并将图片的细节无缝地融入其语境中,以指导图片生成。

- 世界知识:原生图像生成使4o能够在其文本和图像之间建立知识链接,从而使模型显得更聪明、更高效。

说起来,4o的图像生成功能其实已经跳票整整一年了。去年OpenAI联合创始人Greg Brockman在推特上分享了一张GPT-4o生成的手写板书图片,黑板上的手写体达到了以假乱真的程度,让人乍一看还以为是真人在黑板上写的,当时就引起了不小的轰动。

另外还有个有趣的点,DeepSeek官方其实昨晚才在国内微信公众号和国外推特分别官宣了 DeepSeek-V3 0324 的更新,所以对老外的时区来说,这三件事其实算是同一天的王炸连发,和我们受到的惊喜程度还不太一样。

【活动分享】2025全球机器学习技术大会(ML-Summit)将于4月18-19日在上海举办。大会共12大主题、50+海内外专家,聚焦下一代大模型技术和生态变革技术实践。详情参考官网:http://ml-summit.org/。