上周OpenAI连发两弹,GPT-5.5和ChatGPT Images 2.0同时亮相。前者是速度升级,后者却藏着更狠的杀招——能基于真实数据生成带文字和上下文理解的图像。但基础画图能力呢?是进步还是原地踏步?我决定用老办法测一测。

测试对手是谷歌Gemini的Nano Banana。去年12月我跑过同样的题,当时Nano Banana拿了93%,ChatGPT只有74%,差距主要在流行文化题上——ChatGPT直接拒绝作答。这次我两边全部重跑,看当下的真实水平。

打开网易新闻 查看精彩图片

先剧透结果:ChatGPT Images 2.0得分97%,Nano Banana 85%。但最后一题出现了诡异状况,后面细说。

打开网易新闻 查看精彩图片

测试一:换装不换脸

题目是给一张人物照,换上美国海军上将制服,背景换成航母舰桥,比例1:1,要求面部和身材不变。

两个模型在场景搭建上都过关,舰桥环境像模像样。制服表面看都对,但细节都有问题——肩章混了不同军衔元素,还各自编了一些不存在的配件。这道题各扣1分。

人脸保留方面,ChatGPT基本守住原貌,Nano Banana却把人变老了几岁,皱纹和轮廓都变了。这里Nano Banana再扣1分。

测试二:文字渲染能力

这道题要求生成一张餐厅菜单,包含特定菜名和价格,文字必须可辨认。

ChatGPT Images 2.0的菜单文字清晰可读,排版整齐,连价格符号都没错。Nano Banana的文字则出现扭曲,部分字母粘连,"Grilled Salmon"变成了"Griled Salm on",价格数字也有错位。

这是Images 2.0的明确优势区。OpenAI这次把文本嵌入图像的稳定性做上去了,谷歌还在挣扎。

测试三:多对象空间关系

题目:一张桌子上放三个物体,红球在蓝盒子左边,绿杯子在蓝盒子上面,从特定角度拍摄。

ChatGPT的空间关系全对,视角也符合描述。Nano Banana把绿杯子放在了蓝盒子旁边而非上面,空间逻辑出错。这道题成为分水岭。

打开网易新闻 查看精彩图片

测试四:流行文化人物

去年ChatGPT在这里栽了大跟头,直接拒绝生成任何可能涉及版权的形象。这次Images 2.0态度明显松动——虽然仍有规避,但愿意尝试风格化演绎。Nano Banana则继续保持宽松策略。

具体得分:ChatGPT拿到部分分数,Nano Banana满分。但差距已从去年的"拒绝vs通过"缩小为"部分通过vs通过"。

测试五:复杂场景一致性

要求生成一组四格漫画,同一角色连续动作,保持服装、发型、面部特征一致。

ChatGPT的角色一致性达到可用水平,虽然第四格发型略有漂移。Nano Banana的第二格就换了发色,第三格连脸型都变了。连环叙事对谷歌仍是硬骨头。

最后一题:诡异状况

题目是生成一张"程序员在深夜加班"的场景。ChatGPT的输出一切正常。Nano Banana却在背景屏幕里生成了一段可辨认的代码——我放大一看,是某开源项目的许可证文本,连版权年份都没改。

这不是"生成",这是"搬运"。谷歌的模型似乎从训练数据里原样复现了特定代码片段,而非理解后重建。这解释了为什么最后一题我给了Nano Banana一个特殊标记:技术实现上的"取巧"最终成了减分项。

最终计分:ChatGPT Images 2.0以97%对85%胜出。提升主要来自三方面:文本渲染稳定性、空间逻辑准确性、以及版权规避策略的灵活调整。谷歌的Nano Banana仍在多对象关系和连续一致性上落后,更麻烦的是出现了训练数据泄露的苗头。

一个有趣的副产品:两家公司都该雇个全职产品经理专门管命名。"Images 2.0"和"Nano Banana"这种名字,放在产品发布会上念出来,台下估计面面相觑。