梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
GPT Image2全网刷屏,但效果究竟为什么这么好?
研究负责人陈博远揭秘:底层架构已彻底重构。
但他又拒绝回答是否采用扩散模型或自回归技术,只是神秘的将其描述为“通用模型”或“图像领域的GPT”。
陈博远的一条推文还透露,从去年12月底的GPT Image 1.5算起,只用了四个月就有如此大的改进。
这样突破性的成果,核心团队只有13人。
整个团队的负责人Gabriel Goh晒出了的团队成员AI全家福。
评论区有网友感叹:怎么全是亚洲人?
陈博远:从不懂Python到Research Lead
GPT Image 2究竟是什么架构?
OpenAI恐怕很长一段时间都不会公布了,但从核心团队成员的学术经历可以看出一些痕迹。
陈博远是团队的Research Lead,他和另一位成员Kiwhan Song在MIT读博时有同一位导师Vincent Sitzmann。
他博士期间的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入选了NeurIPS 2024。
这项研究提出Diffusion Forcing这一全新序列生成训练范式,将逐token独立噪声级扩散与因果下一个token预测结合,融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势。
他在谷歌实习期间还以共同一作身份发表了SpatialVLM。
通过过自动构建互联网规模的3D空间推理 VQA 数据集(1000 万图像、20 亿 QA 对),为视觉语言模型赋予定量 / 定性空间推理能力,可从单张 2D 图像输出米制距离、尺寸、方位等精确数值。
这项研究把思维链空间推理应用到了具身智能领域。
在谷歌实习期间,他开发的指令微调技术后续还被Gemini 2.0采用。
他在高中参加科研夏令营时,还不懂Python的基本语法,那时结识的谷歌DeepMind资深研究员夏斐把他引入了AI世界。
夏斐两次邀请他到DeepMind完成高质量实习,这些经历使陈博远积累了大规模模型训练的工程经验,也为他理解多模态系统的数据需求提供了宝贵视角。
博士毕业后,陈博远于2025年6月加入OpenAI,迅速成为GPT图片生成五人核心成员之一,负责GPT图像生成模型的所有训练,同时也是Sora视频生成团队的一员。
在演示中,他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报,为来自Bangladesh的队友做孟加拉语海报。每一张中的文字渲染都精准无误。
中科大Jianfeng Wang:让生图AI理解世界知识
中科大博士毕业的Jianfeng Wang,在GPT Image 2团队负责的是另一个让人惊叹的能力:指令遵循和理解世界。
旧模型画的永远时钟永远指向10:10,源于网络上的钟表广告图,几乎清一色都是10:10。
这是因为钟表厂商找心理学家做过实验,认为这有助于刺激消费者买表的意愿。
他让新模型画2:25、3:30、9:10、7:45,基本精准。
这只是开胃菜。
更多复杂的空间布局,苹果在中心、杯子在右边、书在上面、相机在左边、篮球在下面。模型全部精准执行。
在加入OpenAI 之前,他在微软工作近9年。在微软期间就与OpenAI团队在DALLE-3上有合作。
他在计算机视觉领域发表了多篇学术论文,研究内容可能涵盖 图像分类、目标检测、语义分割、以及视觉表征学习 等方向
世界知识理解能力的大幅提升,对象的语义内容和功能结构 有正确的理解
JianFeng Wang在演示视频结尾说到:GPT Image 2正在消除你的意图和模型产出之间的差距。
真正做到你想要什么,模型就给你什么。
Yuguang Yang:生成高精度复杂信息图表
Yuguang Yang在GPT Image 2的发布活动中演示了生成信息图和PPT。
整整75页的GPT-3论文拖进ChatGPT,自动生成7张幻灯片。
他的经历可以说是团队成员中最丰富的,每换一个工作都是跨界,但都聚焦机器学习。
他本科在浙大竺可桢学院学的工程,博士在约翰斯霍普金斯大学期间学的是计算化学物理与机器学习。
他第一份全职工作是量化分析师,在清华做访问研究员期间研究的是用于纳米机器人的强化学习和控制算法。
后来他在亚马逊做过Alexa语音研究。
又在微软做过Bing搜索的查询理解和检索、文档理解。
2025年初加入OpenAI后,除了图像生成还参与过ChatGPT智能体项目。
他在个人账号上介绍GPT Image 2的信息图生成能力,可以为科研人员节省大量时间。
还反复提醒大家,要做信息图不要忘记选择思考模式。
从DALL-E到GPT Image 2.0
从团队成员Kenji Hata的自我介绍中得知,GPT Image 1.0也就是GPT-4o的图像生成部分。
有一个人从DALL-E开始参与了OpenAI多模态系列研究的全程。
他就是GPT Image 2.0团队负责人Gabriel Goh。
从2019年加入OpenAI,他的早期研究更篇理论,专注于可解释性和凸优化等等。
从DALL-E开始慢慢转向了图像生成。
看到另一位团队成员Weixin Liang的研究履历,GPT Image 2的技术底色又揭开了一角。
他在Meta实习期间的代表作Mixture-of-Transformers,引入模态解耦的MoE和解耦注意力,显著降低多模态模型预训练的计算成本。
他博士毕业自斯坦福,本科也毕业自浙大竺可桢学院,不过比Yuguang Yang要晚好几年。
Weixin Liang与陈博远一样都是25年博士刚毕业就加入OpenAI,迅速成为团队的核心成员。
其他GPT Image 2.0团队成员还包括:
Ayaan Haque,之前在Luma AI 工作,参与过Luma的视频生成基础模型Dream Machine的训练。
Bing Liang,在Google干了5年多,参与Imagen3、Veo、Gemini Multimodal,2025年跳到OpenAI做图像生成研究。
Mengchao Zhong,本科上海交通大学校友,硕士毕业于得克萨斯农工大学,在Pinterest和Airtable做过软件工程师,在OpenAI负责多模态产品的工程。
Dibya Bhattacharjee,耶鲁大学,2015年IPhO铜牌,CIE A-Level数学和生物全球最高分。
Kiwhan Song是25年10月最晚加入的,除了做研究之外,他还是团队里的提示词大师,大家看到的官方演示图很多都出自他手。
……
从最早的DALL-E到今天的GPT Image 2.0,这只团团队先后解决了。画得出来、画得清楚、画得好看、画得准。
尽管近年来OpenAI的人才流动很大,但OpenAI还是那个能不断吸引各种有个性的人才,不限制专业、欢迎跨界,信奉自下而上涌现式研究的公司。
从一个小团队开始,有了突破后公司倾斜更多资源,直到改变世界。
One More Thing
曾经,GPT-4o图像生成模仿吉卜力风格生成的头像席卷了全世界。
如今GPT Image 2.0的团队成员,都把自己头像换成了这种奇脖子画风。
那么这种画风的提示词是什么?团队成员也公布了出来
Usemy photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall1:3image.
参考链接:
[1]
https://x.com/gabeeegoooh/status/2046674385407512687?s=20
[2]
https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly
热门跟贴