凌晨两点,Future的测试桌上摆着两组生成结果。一边是OpenAI刚推送的ChatGPT Images 2.0,另一边是Google埋进搜索流里的ImageFX——没人想到这场"谁更会画画"的较量,会从一瓶虚构的药剂开始。

第1轮:复古药剂架,测的是"氛围感"还是"清晰度"

打开网易新闻 查看精彩图片

Prompt要求很具体:12个玻璃瓶,手写花体标签,比如"月光酊剂""遗忘周三的精华",暖调午后光,浅景深。

ChatGPT Images 2.0的输出让测试者愣了一下。光线确实是暖的,不是算法随便调的色温,而是像下午三点斜照进老药店的那种暖。标签上的花体虽然不完全可读,但"看起来像那么回事"。

ImageFX走了另一条路。光线更平、更均匀,整个架子看得清清楚楚,没有那种"老照片"的滤镜感。

Future的判定很直接:ChatGPT赢在技术完成度。它更贴近Prompt的每一个限定词——尤其是"浅景深"这个摄影术语,ChatGPT真的做了焦外虚化,而ImageFX更像一张产品展示图。

但这里有个有趣的细节。ImageFX的标签其实更清楚,如果你真想读清"Essence of Forgotten Wednesdays"写了什么,Google的版本更实用。问题是,Prompt没要求"清楚",它要求的是"氛围"。

这一轮暴露了两家产品的底层差异:OpenAI在训练里灌了多少艺术摄影的审美偏好,Google则保留了搜索引擎时代的实用主义——给你看全,给你看清。

第2轮:cottage大小的怀表剖面,工程师在齿轮上维修

这个Prompt是故意刁难的。要画"剖面图",要有"微小人类工程师",要有"绳梯连接内外",还要"机械怀表的精密感"。

ChatGPT的回应堪称"过度交付"。它不仅画了剖面,还给每层齿轮加了迷你示意图;工程师的大小比例基本合理;绳梯确实存在,虽然有几根飘得有点物理可疑。

最让测试者惊讶的是标签可读性。在一张AI生成的图里,你居然能辨认出"Lever Escapement""Mainspring Barrel"这种字样——不是乱码,是真正能对应到怀表结构的术语。

ImageFX的速度更快,这是Google的一贯优势。但快有代价:工程师的比例时大时小,有些站在齿轮上像巨人,有些又像蚂蚁。绳梯要么缺失,要么画成了奇怪的金属杆。剖面的层次感不如ChatGPT清晰,你很难一眼看出"这是第几层"。

Future的评语很技术流:ChatGPT的"空间一致性"更好。当AI要处理"里面的人"和"外面的人"同时存在时,OpenAI的模型似乎有更强的三维场景理解,而不是把两个独立画面拼在一起。

这一轮没有悬念。ChatGPT Images 2.0胜。

第3轮:水银飞溅的物理瞬间,测的是"材质理解"

Prompt:"一滴水银撞击花岗岩表面的瞬间,高速摄影风格,表面张力形成的冠状飞溅,背景纯黑。"

这是两家都翻车的领域。

ChatGPT Images 2.0理解了"高速摄影"——快门凝固了飞溅的顶点,冠状结构基本正确。但水银的质感有问题,太像液态金属特效,少了真实水银那种"又重又流动"的诡异感。花岗岩的纹理也偏假,像贴图。

ImageFX的水银更像水。表面张力不足,飞溅形态偏软,冠状结构塌了一半。但它对花岗岩的处理反而更自然,可能是搜索引用了真实石材照片。

Future判ChatGPT小胜,理由是"至少更像一张成功的高速摄影"。但测试者私下备注:如果这是商业项目,两张都得进PS重修。

这一轮的关键发现是:AI对"极端物理现象"的掌握仍然不稳定。水银不是常见训练素材,两家都在用"液态金属"的近似概念硬撑。这说明当前图像模型的材质库有盲区——越是日常少见的物质,越容易露馅。

第4轮:狗满为患的生日派对,测"叙事密度"

Prompt:"一个拥挤的生日派对场景,但所有参与者都是不同品种的狗,穿着不合身的派对服装。一只金毛寻回犬试图吹蜡烛,一只穿着紧身西装的吉娃娃看起来很不舒服,背景中一只大丹犬打翻了潘趣酒碗。混乱而温馨的氛围。"

这是全场最复杂的Prompt。六个独立角色动作,三种情绪层次(混乱、温馨、个体不适),还要"拥挤"的空间感。

ChatGPT Images 2.0交出的答卷让测试者沉默了几秒。金毛的嘴真的在蜡烛上方,气流甚至让火焰微微倾斜;吉娃娃的西装确实紧,你能看到扣子处的褶皱张力;大丹犬的打翻动作有动态模糊,潘趣酒正在飞溅而不是已经洒完。

更细的是品种区分。金毛、吉娃娃、大丹犬的体型比例基本正确,没有那种"所有狗都像一个模子"的AI通病。背景里还有几只模糊处理的配角狗,填补了"拥挤"的要求。

ImageFX的版本更像一张"狗狗派对"的素材拼贴。每只狗都清楚,但清楚得彼此孤立,没有互动关系。金毛和蜡烛之间隔着奇怪的空隙,吉娃娃的西装看起来像正常尺码,大丹犬只是"站在碗旁边"而不是"打翻"。

Future的判定:ChatGPT在"叙事连贯性"上碾压。这不是画质问题,是理解问题——OpenAI的模型似乎能维护一个"场景剧本",而ImageFX在处理多角色互动时,更像在分别生成独立元素再硬塞到一起。

第5轮:故障艺术肖像,测"风格迁移"的边界

Prompt:"一位中年女性的数字肖像,但整个画面呈现严重的VHS故障效果:扫描线、色带分离、画面撕裂、时间码闪烁。故障不是装饰,而是侵蚀了面部特征——左眼区域有水平撕裂,右脸颊有色块错位。"

这是风格与内容的极端叠加。AI不仅要画人像,还要让"损坏"以符合物理逻辑的方式发生。

ChatGPT Images 2.0的故障效果堪称专业级。扫描线的粗细有变化,模拟了VHS磁头的不稳定性;色带分离出现在高对比边缘,符合模拟信号的特性;最惊艳的是左眼区域的撕裂——它真的像画面被横向拉伸后产生的失真,而不是随便画几道线。

但测试者发现了一个微妙问题。时间码闪烁的位置太"安全"了,都避开了面部关键区域。这可能是安全机制在起作用:即使Prompt要求"侵蚀面部",模型仍在下意识保护人像完整性。

ImageFX的故障效果更粗暴。扫描线均匀得像滤镜预设,色块错位随机出现,没有"信号损坏"的层次感。但它在"破坏性"上更听话——右脸颊的色块确实覆盖了部分面部,虽然方式很生硬。

Future判平局。ChatGPT的技术更成熟,但它在关键要求上打了折扣;ImageFX执行得更彻底,但执行质量偏低。这反映了两种产品哲学:OpenAI优先"好看且安全",Google优先"按要求来"。

第6轮:微缩东京雨夜,测"尺度欺骗"

Prompt:"一个微缩模型风格的东京街头场景,雨夜,1:87比例(HO比例)。要有逼真的积水倒影,但路灯和车灯的光晕要明显 oversized——这是微距摄影的典型特征。远处的高楼要有移轴摄影的虚化效果。"

这是三重技术叠加:微缩模型的物理尺度、雨夜的光学特性、移轴镜头的特殊景深。

ChatGPT Images 2.0几乎全中。积水倒影的扭曲程度符合小比例模型的水面张力;光晕确实比正常路灯大一圈,模拟了微距镜头近距离拍摄时的光斑扩散;移轴虚化从画面中部向上下渐变,过渡自然。

唯一瑕疵是车辆比例。几辆车的HO比例略有偏差,看起来像1:64的热轮玩具而不是1:87的火车模型——这个误差足够让铁道模型爱好者皱眉。

ImageFX在光学效果上同样出色,但犯了更基础的错误。移轴虚化方向反了,远处高楼清晰、近处街道模糊,完全违背移轴镜头的成像原理。积水倒影也存在,但水面平静得像镜面,没有微缩场景应有的"微小涟漪"质感。

Future的判定:ChatGPT胜在"知道为什么这样拍"。移轴摄影的虚化方向不是随机参数,它对应着真实镜头的光学结构。OpenAI的训练数据显然包含了更多摄影技术文档,而Google的模型可能更多依赖图像关联学习。

第7轮:无限镜室中的手写体,测"文本生成"的终极挑战

Prompt:"一个人站在无限镜室(infinity mirror room)中,四周是重复的镜像。每个镜像中的"人"都举着一块牌子,牌子上用不同语言写着同一个词"边界"(中文、英文、日文、阿拉伯文)。真实的物理空间与镜像的虚拟空间要清晰区分。"

这是当前AI图像生成器的阿喀琉斯之踵:多语言文本、空间一致性、递归结构的叠加。

ChatGPT Images 2.0的中文"边界"正确率约70%,英文"Boundary"正确率90%,日文和阿拉伯文基本无法辨认。但它在空间处理上展现了惊人能力——你能分辨出哪一层是真实的人,哪一层是第一次反射、第二次反射,每层的光照衰减也符合物理规律。

ImageFX的多语言表现类似,但空间结构崩塌得更早。第三次反射之后,镜像开始重叠错乱,"举着牌子"这个动作在深层镜像中变成了"牌子飘在空中"或"手消失"。无限镜室的递归逻辑在Google的模型里似乎触发了某种溢出错误。

Future的最终判定:ChatGPT Images 2.0以5胜1平1负的成绩胜出。唯一的平局来自第5轮的安全机制干预,而第3轮的"小胜"其实暴露了双方共同的材质盲区。

但测试报告的最后一条备注值得玩味:如果用户的核心需求是"快"和"稳",ImageFX在简单Prompt下的出图速度仍是ChatGPT的2-3倍,且更少出现"画到一半逻辑崩坏"的情况。OpenAI的胜利属于"上限",Google的优势在于"下限"。

这场7轮对决的真正结论或许是:AI图像生成已经进入了"没有 universal winner"的时代。选ChatGPT,你买的是审美判断和空间理解;选ImageFX,你买的是响应速度和执行顺从。问题变成:你更常为什么场景买单?