还是怀念OpenAI发布会的日子,

至少不会就提前两小时发个预告,所有人熬夜等更新,这次更新的GPT Image 1.5有更强的指令遵循,更精准的图像编辑,生成速度比之前快了四倍,而且已经全量全用户上线了,

还上了一个新的粉粉的使用界面,

打开网易新闻 查看精彩图片

这次他们放出来的cases基本就是照着Banana2来的,多文本生成,文字信息海报,世界知识等等,那我肯定要满足他们的愿望,来一个GPT Image 1.5和Banana2世纪大PK,十二个场景一次性看爽!

老规矩所有提示语和图片都打包了,公众号回复“gpt生图”就行

先来个6*6网格多元素生成的地狱case热热身,

绘制一个6x6的网格

创建一个6列×6行的网格,内容如下:

第一行:希腊字母β、沙滩球、柠檬、机器人、鱼缸、青蛙

第二行:螳螂、昂贵手表、浴缸、太阳镜、彩色蝴蝶、信封

第三行:邮票、相框、热气腾腾的饺子、"奇迹"一词、滑雪板、字母Z

第四行:马桶、地铁代币、静音图标、香水瓶、蜻蜓、滑板头盔

第五行:蓝牙图标、数字13、绿色爱心、魔方、加拿大鹅、军用头盔

第六行:白色小狗、救生衣、绳结、键盘、纸巾盒、数字14

这是Banana2的,虽然单个元素的画风会比GPT Image 1.5顺眼,但确实列数超过了,有些元素重复生成,

打开网易新闻 查看精彩图片

GPT Image 1.5,

打开网易新闻 查看精彩图片

第一局用的是GPT Image 1.5的case,第二局轮到Banana2的主场了,

生成一张3:4的图片,画面上方用书法写着一首完整的《茅屋秋风所破歌》,内容是【完整全文】,每个字上方都要标注上汉语拼音,同时画面内容主要用水墨画的形式展示这首诗所表达的情景。

看来GPT Image 1.5的中文还没训练够完整,中文错字好高,反而是拼音注音的准确率还高点,

打开网易新闻 查看精彩图片

Banana2做出来的长这样,

打开网易新闻 查看精彩图片

OK。马上进入第三局世界知识PK,还是Banana2的主场case,这次就直接开始图生图了,

打开网易新闻 查看精彩图片

这是中国最高桥梁花江峡谷大桥的照片,描述这个桥梁的基本信息,图像标题为花江峡谷大桥的中英文并有矩形框,包括尺寸,宽度,高度,主缆长度,建成日期等,保证原图不变,信息以手写标注的形式添加在图中,并标在对应位置。在空白处画出桥梁主缆的剖面原理示意和悬索桥基本原理示意。

第一眼我真的有被唬到,

但我发现数值跟Banana2有点不太一样,这张图里桥面离水面的高度数据最大跨度是对的,其他的都是错误的。

打开网易新闻 查看精彩图片

Banana2做出来的数据的正确率高很多,

打开网易新闻 查看精彩图片

看来要降低一点难度,做点信息图或者海报了。

还有就是我真没有欺负GPT Image 1.5,生成过程也是会用到GPT 5.2补充知识的,所以通过经纬度还是可以做对应地点的历史海报的。

打开网易新闻 查看精彩图片

用一组图,描绘公元前260年5月至10月之间,东经112°41到113°09′,,北纬35°39′到35°59′ 发生的事情,并给出详细的信息图,图上要用中文说明发生了什么事情,以及结果的重要信息

GPT Image 1.5,

打开网易新闻 查看精彩图片

Banana2,

打开网易新闻 查看精彩图片

测到现在感觉没啥悬念,1.5有点压不住2啊,

OpenAI还给GPT Image 1.5列出了几个小的质量更新,比方说生成非常非常非常非常多的小面孔也不会崩。

成千上万的人群聚集在上海东方明珠前。人群中每个人的脸都必须清晰可见。

Banana2做出来的长这样,

打开网易新闻 查看精彩图片

一拉大的话从第四列的人开始脸就开始崩了

打开网易新闻 查看精彩图片

但GPT Image 1.5做出来的这个真的会伪人到我做噩梦的程度,优化在哪了?

打开网易新闻 查看精彩图片

还有什么能测的呢?

多图融合和精确修改还可测测看,

因为ChatGPT一次只能上传10个图片,所以我传了10个毛茸茸做多图融合

打开网易新闻 查看精彩图片

一张中景照片,10 个毛茸茸的角色挤在一起,并排坐在磨损的米色布沙发上和地板上。他们都面向前方,看着放在沙发前低矮木桌上的一个复古木盒电视机。房间光线昏暗,左侧窗户透进温暖的光线,电视发出的光芒照亮了生物的面孔和毛茸茸的质感。背景是一个舒适、略显杂乱的客厅,有编织地毯、摆满旧书的书架,以及背景中的一些乡村风格厨房元素。整体氛围温暖、舒适且充满乐趣。

这个case就有点区分不出来哪个比较好了,两个都有漏角色,重复生成的,GPT Image 1.5是少生成了一个,Banana2是多生成了一个,

GPT Image 1.5,

打开网易新闻 查看精彩图片

Banana2,

打开网易新闻 查看精彩图片

图像修改的话,GPT Image 1.5刚好碰上Banana2更新了,上传图片的时候可以画圈,箭头,文字来指定修改,

打开网易新闻 查看精彩图片

左侧case没找到出处,右侧是@歸藏佬做的

让GPT Image 1.5也挑战一下吧,

打开网易新闻 查看精彩图片

画面我是真没太看出来明暗有什么变化,但是划线花圈文字啥的确实都抹除了,换个case来看会更加明显,三个不同颜色的圈圈成功了一个。

打开网易新闻 查看精彩图片

OpenAI也主动承认了GPT Image 1.5在风格化上会比上一代要差,想要表现好的话可以用提供的滤镜,不过只有13种够谁用啊。

打开网易新闻 查看精彩图片

再拉我也测试看看,

把图一(柯南)转真人,模仿图二的风格生成一个带2D插图元素的真人街拍

打开网易新闻 查看精彩图片

可能是我做的时候对GPT Image 1.5没抱太大期望,这把他居然是还行的,

打开网易新闻 查看精彩图片

左边是GPT Image 1.5右边是Banana2

把一张九宫格图做成完整视频目前应该是只有Sora2能做到,之前我都用Banana2做图的,今天刚好也试试看GPT Image 1.5做的效果。

打开网易新闻 查看精彩图片

根据这张图片推测该场景的事件时间线,以电影分镜方式按发生顺序制作成9格分镜网格。

GPT Image 1.5生成的九宫格里面画风偏了我就不挑了,问题是这个九宫格它前后有逻辑顺序吗?

打开网易新闻 查看精彩图片

Banana2做出来的逻辑性会强很多,

打开网易新闻 查看精彩图片

当然我这个没有用原版的九宫格生成提示语(太长了放链接),

那个是会分析图片里所有关键元素,强制对应真实世界里的某一个片子的。

GPT Image 1.5做出来的长这样,也没好多少。。。

打开网易新闻 查看精彩图片

最后我用Grok汇总了一下两个模型的对比,

就更没想到GPT Image 1.5有啥竞争力了,

可能就是生图速度快点了,

但光快也没用啊。。。

打开网易新闻 查看精彩图片

Greg给GPT Image 1.5站台做的case也被Banana2比下去了。

打开网易新闻 查看精彩图片

对了对了,差点忘了当时Banana2惊艳我的线稿上色的case了,

给这张漫画页上色并翻译成中文放到图中原来的位置,保持构图和图片细节的一致

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

从左到右是原图,Banana2,GPT Image 1.5

还有还有还有,测到停不下来了,

从专业的角度详细解释AI视频生成模型的训练原理并制作一页蜡笔小新手绘风格的英文PPT,加入比较多的文字和案例进行辅助说明,让蜡笔小新带领大家一起学习的感觉,PPT页面比例16:9

打开网易新闻 查看精彩图片

这一把又测到凌晨六点了,

该洗洗睡了,

这句话我送给我自己,

也送给GPT Image 1.5,

测试过程中发现Banana2懂中文已经把我养刁了,

别的缺点都可以忍,

不会中文是真忍不了一点

要不要考虑学学隔壁Sora2,

找点IP联名后再来挑战吧。

@ 作者 / 困得不行的卡尔

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

更多的内容正在不断填坑中……

打开网易新闻 查看精彩图片