
今日凌晨,OpenAI 悄悄推出了由 GPT-4o 支持的「自由生图」功能——Images in ChatGPT。
自此,创建和定制图片就像使用 GPT-4o 聊天一样简单——你需要做的,只是描述你的需求,包括任何具体细节,如长宽比、使用十六进制代码的精确颜色或透明背景。
例如,向 GPT‑4o 输入一段描述,在描述中说明场景、主体和细节:
用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字,她身穿印有大型 OpenAI 标志的 T 恤。字迹看起来很自然,但有点凌乱,我们可以看到摄影师的倒影。

同时,GPT‑4o 还可以根据提供的文字内容,在生成图片的白板上生成相应的笔记。
在输入新的指令“摄影师的自拍照,她转身和他击掌”后,图片中的人物相应的变换动作,甚至白板上的反光都能够对应上。

目前,该功能现已面向 ChatGPT 的所有订阅层级用户开放,包括免费用户,但免费用户的使用次数有限制。由于这一模型创建的图片更详细,因此图片渲染时间更长,通常需要一分钟。
OpenAI 表示,这一功能将作为 ChatGPT 的默认图像生成器,也可以在 Sora 中使用。开发人员很快就能通过 API 使用 GPT-4o 生成图像,并在未来几周内推出访问权限。
5 大改进能力
OpenAI 表示,他们根据在线图像和文本的联合分布训练模型,学习图像与语言及彼此间关系。同时,结合后训练,使得模型具备视觉流畅性,能够生成有用、一致且具上下文感知的图像。
1.文本渲染能力
GPT-4o 现在可以将精确符号与图像融合,通过自然对话优化图像,在图像中添加文字提升含义,且能在聊天中确保图像一致性。

制作两个 20 多岁的女巫(一个是白发,一个是长波浪卷发)阅读路牌的逼真图像。 背景: 纽约州威廉斯堡的一条城市街道上,一根电线杆上挂满了许多详细的路标(如:街道清扫时间、停车许可证要求、车辆分类等)、街道清扫时间、所需停车许可证、车辆分类、拖车规则),包括中间几个可笑的标志:(为了使这些路牌合法化,请转述)“C 区不允许女巫用扫帚停车”、“魔毯只能装卸(15 分钟限制)”、“驯鹿停车只能凭许可证(12 月 24-25 日),违反者将被列入淘气名单”。路标位于街道右侧。请勿重复标志。标志必须逼真。 人物: 一个女巫拿着扫帚,另一个女巫拿着卷起来的魔毯。她们位于前景,背对镜头,头微微倾斜,仔细观察标志。 从背景到前景的构图: 街道 + 停放的汽车 + 建筑物 -> 路牌 -> 女巫。人物必须离拍摄镜头最近。
2.多轮生成
用户可以通过与 GPT-4o 的自然对话来优化图像,在聊天上下文的基础上,结合图像和文本信息,确保内容的一致性。例如,当用户设计一个电子游戏角色时,在不断优化和尝试的过程中,这个角色的外观在多次迭代中都能保持连贯。例如:
你能为我制作一个可爱的简约浣熊吃草莓贴纸吗?使用白色粗边框和透明背景。

尝试不同的简约风格和灰色浣熊图案。

哦,你能不能在草莓上加上一个咀嚼的痕迹,或者在嘴巴周围加一些红色的乱七八糟的东西?

3.指令遵循
GPT‑4o 的图像生成遵循详细的提示,注重细节。其他系统在处理约 5-8 个对象时会遇到困难,而 GPT‑4o 可以处理多达 10-20 个不同的对象。对象与其特征和关系的更紧密绑定使得对图像的控制更好。

正方形图像包含一个 4 行 4 列的网格,白色背景上有 16 个物体。从左到右,从上到下。列表如下: 蓝色星星 红色三角形 绿色正方形 粉红色圆形 橙色沙漏 紫色无穷大标志 黑白圆点领结 扎眼的 "42" 一只戴着黑色棒球帽的橙色猫 一张带宝箱的地图 一双眨巴眨巴的眼睛 一个竖起大拇指的表情符号 一把剪刀 一只蓝白相间的长颈鹿 用草书书写的单词 "OpenAI" 彩虹色的闪电
4.上下文学习能力
GPT-4o 可对用户上传的图像进行分析和学习,将图像细节与上下文无缝整合,为图像生成提供信息。

5.世界知识
GPT‑4o 可分析学习用户上传图像,将其细节融入上下文指导图像生成,原生图像生成使模型更智能高效。

照片写实主义和风格
通过对多种风格图像训练,模型能创建或转换逼真图像,可按要求生成特定场景的照片。

图|一张狗仔队风格的抓拍照片,照片中的卡尔・马克思正匆忙地走过某个地方。

图|一只猫看着街上的一滩水,但是它在水中的倒影是一只老虎,并且两个倒影都被水中的涟漪逼真地扭曲了。

图|一张 2006 年夏天一个周六多伦多农贸市场的逼真照片。那是六月下旬一个美丽的日子,人们在购物和吃三明治。焦点应该是一个年轻的亚洲女孩,她穿着牛仔背带裤,正在喝草莓香蕉冰沙,其余部分可以模糊处理。这张照片应该让人想起 2006 年的数码相机所拍摄的照片,要有像打印照片那样的时间戳。宽高比应为 3:2。
局限性
目前,模型还存在一些局限性,如裁剪较长图像时可能截不全;图像生成也可以虚构信息,特别是在低上下文提示的情况下。

当生成依赖于其知识库的图像时,它可能难以同时准确地呈现 10 到 20 多个不同的概念,例如完整的元素周期表。

该模型有时在呈现非拉丁语言时会遇到困难,并且字符可能不准确或出现幻觉,尤其是在更复杂的情况下。

对图像生成的特定部分进行编辑的请求(如纠正错别字)并不总是有效的,并且可能会以非预期的方式改变图像的其他部分或引入更多错误。OpenAI目前正在努力提高模型的编辑精度。

另外,该模型在被要求以非常小的尺寸呈现细节信息时会遇到困难。

最后,OpenAI 还强调了在新功能中实施的安全措施,以防止滥用行为。所有生成的图像都包含数字水印,标明其由 AI 生成,且用户拥有这些图像的完整使用权,但需遵守使用政策。
整理:锦鲤
如需转载或投稿,请直接在公众号内留言
热门跟贴