4o 刚刚更新多模态的新功能,图像生成有了全新的体验。

简单分享下图像生成的效果先。

这是之前参加活动的一张照片:

这是 4o 生成的,换成另外两个人的:

中间的文字明显还有错漏。这个先不管。照片里看不太出破绽。

换成女性的效果:

依然还有问题,左边的人脸,胡子过于明显了。不过其它的地方,还是足以以假乱真。

用宫崎骏的风格处理:

用 Jojo 的风格处理:

接下来,命题切换,试着让两个人进入西游记。(提示词也只是简单说,让两个人在西游记的场景里)

继续卡通化:

同样的,可以让两个人进入太空,有科幻感受:

可以进一步做成 3D 的效果:

你可能会说,这种 AI 图,以前见得多了。4o 有什么不一样呢?

最大的不一样就是:模态的理解能力大大加强

举个例子,Midjourney 的确能够画出非常有质感的图。比如这是前几天画的:

可是,这都是碰运气碰出来的。想让这里面的某些元素发生变化,比如让战士不是拿剑,而是拿棍,比登天还难。

更不用说,直接跟 Midjourney 讲,要有西游记的场景。Midjourney 甚至不知道什么是西游记。同样画出前面西游记场景的提示词,在 Midjourney 里会是这样:

多模态有多么强大的威力呢。

比如我直接把之前三五环远程录制的时候,让嘉宾参考的说明书丢给 4o,就给我吐出来了这个:

中文显示依然有问题。且不说这个,排版和图示,已经到了能够简单修改就可用的程度。

我把半拿铁的 logo 给它,让它改成西游篇的 logo,它给我的是这样的:

对于输入的内容足够理解,也就是,我们用自然语言就能控制 AI 帮助我们画图。这件事儿意义很大。

我前阵子试过用所有的 AI 绘图工具,没有一个能实现简单的一句话:「让哪吒和孙悟空用现代武器战斗」。只有 4o 能呈现符合逻辑的图像:

几点感受分享。

第一,Prompt 的学习,彻底没有意义了。过去都说,AI 不太好理解,因此 Prompt 的知识库很重要,怎么学习用 Prompt 很重要。DeepSeek R1 等推理 AI 证明了,AI 对自然语言的理解还在不断进步。文生图如此。其它领域也都如此。Manus 也是如此()。

第二,所谓 AI 的工作流,也许就闭环在每个 AI 场景里了。

可以用前面的两个人物形象,让 4o 直接生成四格漫画:

台词水平还需提升。但是这个漫画开始有了「逻辑」。

过去我们用各种各样的 AI 工具搭建的工作流,例如怎么画漫画,可能要一二三步怎么做,还要用什么手段保持一致性,用什么办法画场景等等()。最后会在 AI 产品里直接完成。

第三,底层技术成熟,应用场景越来越关键。能够把工作流闭环在某个场景里,是真的能提供生产力的,真的能输出价值的。AI 不再只是小部分人的玩具。2025 年真的会是场景之年。

最后一句话的感受是:所有过去我们觉得 AI 偶尔会奏效的场景,AI 迟早会稳定地、准确地输出

用这句话,4o 也给了我一张图。