GPT-4o 的图像生成尝试，以及几点感受

后厂村的刘飞

2025-03-27 19:46 ·浙江 ·三五杯茶联合创始人，《产品思维》《从点子到产品》作者，前阿里高级产品专家。

4o 刚刚更新多模态的新功能，图像生成有了全新的体验。

简单分享下图像生成的效果先。

这是之前参加活动的一张照片：

这是 4o 生成的，换成另外两个人的：

中间的文字明显还有错漏。这个先不管。照片里看不太出破绽。

换成女性的效果：

依然还有问题，左边的人脸，胡子过于明显了。不过其它的地方，还是足以以假乱真。

用宫崎骏的风格处理：

用 Jojo 的风格处理：

接下来，命题切换，试着让两个人进入西游记。（提示词也只是简单说，让两个人在西游记的场景里）

继续卡通化：

同样的，可以让两个人进入太空，有科幻感受：

可以进一步做成 3D 的效果：

你可能会说，这种 AI 图，以前见得多了。4o 有什么不一样呢？

最大的不一样就是：多模态的理解能力大大加强。

举个例子，Midjourney 的确能够画出非常有质感的图。比如这是前几天画的：

可是，这都是碰运气碰出来的。想让这里面的某些元素发生变化，比如让战士不是拿剑，而是拿棍，比登天还难。

更不用说，直接跟 Midjourney 讲，要有西游记的场景。Midjourney 甚至不知道什么是西游记。同样画出前面西游记场景的提示词，在 Midjourney 里会是这样：

多模态有多么强大的威力呢。

比如我直接把之前三五环远程录制的时候，让嘉宾参考的说明书丢给 4o，就给我吐出来了这个：

中文显示依然有问题。且不说这个，排版和图示，已经到了能够简单修改就可用的程度。

我把半拿铁的 logo 给它，让它改成西游篇的 logo，它给我的是这样的：

对于输入的内容足够理解，也就是，我们用自然语言就能控制 AI 帮助我们画图。这件事儿意义很大。

我前阵子试过用所有的 AI 绘图工具，没有一个能实现简单的一句话：「让哪吒和孙悟空用现代武器战斗」。只有 4o 能呈现符合逻辑的图像：

几点感受分享。

第一，Prompt 的学习，彻底没有意义了。过去都说，AI 不太好理解，因此 Prompt 的知识库很重要，怎么学习用 Prompt 很重要。DeepSeek R1 等推理 AI 证明了，AI 对自然语言的理解还在不断进步。文生图如此。其它领域也都如此。Manus 也是如此（）。

第二，所谓 AI 的工作流，也许就闭环在每个 AI 场景里了。

可以用前面的两个人物形象，让 4o 直接生成四格漫画：

台词水平还需提升。但是这个漫画开始有了「逻辑」。

过去我们用各种各样的 AI 工具搭建的工作流，例如怎么画漫画，可能要一二三步怎么做，还要用什么手段保持一致性，用什么办法画场景等等（）。最后会在 AI 产品里直接完成。

第三，底层技术成熟，应用场景越来越关键。能够把工作流闭环在某个场景里，是真的能提供生产力的，真的能输出价值的。AI 不再只是小部分人的玩具。2025 年真的会是场景之年。

最后一句话的感受是：所有过去我们觉得 AI 偶尔会奏效的场景，AI 迟早会稳定地、准确地输出。

用这句话，4o 也给了我一张图。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴