OpenAI深夜上线「一句话改图」，ChatGPT免费用户也能用|openai|一句话改图|上下文|免费用户

今日凌晨，OpenAI 悄悄推出了由 GPT-4o 支持的「自由生图」功能——Images in ChatGPT。

自此，创建和定制图片就像使用 GPT-4o 聊天一样简单——你需要做的，只是描述你的需求，包括任何具体细节，如长宽比、使用十六进制代码的精确颜色或透明背景。

例如，向 GPT‑4o 输入一段描述，在描述中说明场景、主体和细节：

用手机拍摄的玻璃白板的广角图像，拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字，她身穿印有大型 OpenAI 标志的 T 恤。字迹看起来很自然，但有点凌乱，我们可以看到摄影师的倒影。

同时，GPT‑4o 还可以根据提供的文字内容，在生成图片的白板上生成相应的笔记。

在输入新的指令“摄影师的自拍照，她转身和他击掌”后，图片中的人物相应的变换动作，甚至白板上的反光都能够对应上。

目前，该功能现已面向 ChatGPT 的所有订阅层级用户开放，包括免费用户，但免费用户的使用次数有限制。由于这一模型创建的图片更详细，因此图片渲染时间更长，通常需要一分钟。

OpenAI 表示，这一功能将作为 ChatGPT 的默认图像生成器，也可以在 Sora 中使用。开发人员很快就能通过 API 使用 GPT-4o 生成图像，并在未来几周内推出访问权限。

5 大改进能力

OpenAI 表示，他们根据在线图像和文本的联合分布训练模型，学习图像与语言及彼此间关系。同时，结合后训练，使得模型具备视觉流畅性，能够生成有用、一致且具上下文感知的图像。

1.文本渲染能力

GPT-4o 现在可以将精确符号与图像融合，通过自然对话优化图像，在图像中添加文字提升含义，且能在聊天中确保图像一致性。

制作两个 20 多岁的女巫（一个是白发，一个是长波浪卷发）阅读路牌的逼真图像。背景：纽约州威廉斯堡的一条城市街道上，一根电线杆上挂满了许多详细的路标（如：街道清扫时间、停车许可证要求、车辆分类等）、街道清扫时间、所需停车许可证、车辆分类、拖车规则），包括中间几个可笑的标志：（为了使这些路牌合法化，请转述）“C 区不允许女巫用扫帚停车”、“魔毯只能装卸（15 分钟限制）”、“驯鹿停车只能凭许可证（12 月 24-25 日），违反者将被列入淘气名单”。路标位于街道右侧。请勿重复标志。标志必须逼真。人物：一个女巫拿着扫帚，另一个女巫拿着卷起来的魔毯。她们位于前景，背对镜头，头微微倾斜，仔细观察标志。从背景到前景的构图：街道 + 停放的汽车 + 建筑物 -> 路牌 -> 女巫。人物必须离拍摄镜头最近。

2.多轮生成

用户可以通过与 GPT-4o 的自然对话来优化图像，在聊天上下文的基础上，结合图像和文本信息，确保内容的一致性。例如，当用户设计一个电子游戏角色时，在不断优化和尝试的过程中，这个角色的外观在多次迭代中都能保持连贯。例如：

你能为我制作一个可爱的简约浣熊吃草莓贴纸吗？使用白色粗边框和透明背景。

尝试不同的简约风格和灰色浣熊图案。

哦，你能不能在草莓上加上一个咀嚼的痕迹，或者在嘴巴周围加一些红色的乱七八糟的东西？

3.指令遵循

GPT‑4o 的图像生成遵循详细的提示，注重细节。其他系统在处理约 5-8 个对象时会遇到困难，而 GPT‑4o 可以处理多达 10-20 个不同的对象。对象与其特征和关系的更紧密绑定使得对图像的控制更好。

正方形图像包含一个 4 行 4 列的网格，白色背景上有 16 个物体。从左到右，从上到下。列表如下：蓝色星星红色三角形绿色正方形粉红色圆形橙色沙漏紫色无穷大标志黑白圆点领结扎眼的 "42" 一只戴着黑色棒球帽的橙色猫一张带宝箱的地图一双眨巴眨巴的眼睛一个竖起大拇指的表情符号一把剪刀一只蓝白相间的长颈鹿用草书书写的单词 "OpenAI" 彩虹色的闪电

4.上下文学习能力

GPT-4o 可对用户上传的图像进行分析和学习，将图像细节与上下文无缝整合，为图像生成提供信息。

5.世界知识

GPT‑4o 可分析学习用户上传图像，将其细节融入上下文指导图像生成，原生图像生成使模型更智能高效。

照片写实主义和风格

通过对多种风格图像训练，模型能创建或转换逼真图像，可按要求生成特定场景的照片。

图｜一张狗仔队风格的抓拍照片，照片中的卡尔・马克思正匆忙地走过某个地方。

图｜一只猫看着街上的一滩水，但是它在水中的倒影是一只老虎，并且两个倒影都被水中的涟漪逼真地扭曲了。

图｜一张 2006 年夏天一个周六多伦多农贸市场的逼真照片。那是六月下旬一个美丽的日子，人们在购物和吃三明治。焦点应该是一个年轻的亚洲女孩，她穿着牛仔背带裤，正在喝草莓香蕉冰沙，其余部分可以模糊处理。这张照片应该让人想起 2006 年的数码相机所拍摄的照片，要有像打印照片那样的时间戳。宽高比应为 3:2。

局限性

目前，模型还存在一些局限性，如裁剪较长图像时可能截不全；图像生成也可以虚构信息，特别是在低上下文提示的情况下。

当生成依赖于其知识库的图像时，它可能难以同时准确地呈现 10 到 20 多个不同的概念，例如完整的元素周期表。

该模型有时在呈现非拉丁语言时会遇到困难，并且字符可能不准确或出现幻觉，尤其是在更复杂的情况下。

对图像生成的特定部分进行编辑的请求（如纠正错别字）并不总是有效的，并且可能会以非预期的方式改变图像的其他部分或引入更多错误。OpenAI目前正在努力提高模型的编辑精度。

另外，该模型在被要求以非常小的尺寸呈现细节信息时会遇到困难。

最后，OpenAI 还强调了在新功能中实施的安全措施，以防止滥用行为。所有生成的图像都包含数字水印，标明其由 AI 生成，且用户拥有这些图像的完整使用权，但需遵守使用政策。

整理：锦鲤

如需转载或投稿，请直接在公众号内留言

OpenAI深夜上线「一句话改图」，ChatGPT免费用户也能用

热搜

热门跟贴

热搜

热门跟贴

相关推荐

人刚毕业，代码一点不会，他纯靠ChatGPT写APP，年入千万美金

Multi-Token突破注意力机制瓶颈，Meta发明一种很新的Transformer

浙大校友重磅革新Transformer！多token注意力让LLM开挂，错误率归0

大神卡帕西亲自演绎零基础开发APP，ChatGPT四轮对话搞定

百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%

视觉SSL终于追上CLIP！Yann LeCun、谢赛宁等新作，逆转固有认知

一个免费习题打印生成器网站，家长和老师狂喜

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

Recraft爆红，我们和创始人聊了聊

末日时间表来了！前OpenAI研究员76页硬核推演：2027年ASI接管世界，人类成NPC

12名工程师，估值190亿，AI黑马的梦幻故事

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

AI说书媲美真人！豆包语音大模型升级长上下文理解

KDD'25 | 生成式拍卖：感知排列外部性的整页优化机制

社交应用收入排名超ChatGPT，“出道晚增长快”的产品如何靠短剧崛起

ChatGPT预测国王杯冠军：巴萨49%&皇马51%，难分伯仲皇马略胜一筹

特朗普新关税是ChatGPT算的？被控「AI治国」，美科技股遭史上最黑暗一天

吉卜力在ChatGPT找到了“数字归宿”？这更是一场赤裸裸的掠夺

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

我国对原产于美国的所有进口商品加征关税