智东西作者 王涵编辑 心缘
打开网易新闻 查看精彩图片
智东西作者 王涵编辑 心缘

智东西4月24日报道,今天凌晨,OpenAI智能体编程模型GPT‑5.5正式发布

GPT‑5.5能更快地理解用户的目标,擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格以及在多个工具之间协同操作

打开网易新闻 查看精彩图片

▲OpenAI官宣推文(指路:https://x.com/OpenAI/status/2047376561205325845)

OpenAI团队将其称之为“这是我们迄今为止最智能、最直观易用的模型,也是迈向在计算机上完成工作的全新方式的重要一步。”

Sam Altman本人评价该模型:“根据我的经验,它‘知道该做什么’。”

打开网易新闻 查看精彩图片

在性能上,GPT‑5.5的提升在智能体编码、计算机使用、知识型工作以及早期科学研究等领域尤为显著——这些领域的进展依赖于跨上下文的推理和持续的自主行动

编程能力上,GPT‑5.5全面超越了Gemini 3.1 Pro;在专业任务、计算机使用与视觉、工具使用以及抽象推理方面,其在大部分测试集的成绩都高于Claude Opus 4.7和Gemini 3.1 Pro。

但在学术和工具使用能力上,GPT‑5.5与Claude Opus 4.7和Gemini 3.1 Pro并未拉出明显差距。

打开网易新闻 查看精彩图片

在速度上,GPT‑5.5在实际服务中保持了与GPT‑5.4相当的每token延迟,同时实现了更高的智能水平。完成相同的Codex任务时,GPT‑5.5使用的token数显著更少,因此效率更高、能力也更强

模型一经发布,就有很多参与内部测试的网友分享了他们的使用感受。

开源项目Claude Engineer的创建者、AI设计助手MagicPath的CEO Pietro Schirano分享称,GPT-5.5只用了大约20分钟就帮他自动对比了其项目两个版本的代码差异,然后基于正式版本创建了新分支,还将其他分支的所有改动完美合并了进去。

打开网易新闻 查看精彩图片

他还用GPT-5.5一次性生成了一个可玩的3D射击游戏,游戏整体操作手感流畅,而且每一个图形都是由Three.js从零生成的。

此外,Pietro Schirano让GPT-5.5通过USB连接为他的Flipper Zero创建了应用程序,并成功地将它们推送到了设备上。

打开网易新闻 查看精彩图片

Pietro Schirano感慨道:“GPT-5.5是我用过的最强大的工具。我第一次感觉自己不再受限于模型的功能,而只受限于我的想象力。训练工作流程、不可能的优化、通过USB进行硬件实验。Vibe硬件时代开启。”

打开网易新闻 查看精彩图片

AI工程师Peter Gostev深度体验了GPT-5.5,并放出了他用GPT-5.5工作的几个例子。他分享称,用户可以给GPT-5.5设定好步骤提示词,GPT-5.5就会按照步骤逐项完成,亲测至少可以稳定自主运行7个小时。

打开网易新闻 查看精彩图片

Peter Gostev要求GPT-5.5创建一个带有地标和季节变化的伦敦玩具铁路,该模型一次性就出色地完成了任务。他对比发现,相比于GPT-5.4,GPT-5.5生成的作品在构思上要宏大得多、逻辑更连贯,而且错误也更少。

波兰波兹南密茨凯维奇大学数学系助理教授Bartosz Naskręcki使用Codex中的GPT‑5.5,仅凭一条提示词,在11分钟内就构建了一个代数几何应用,该应用能够可视化二次曲面的交线,并将结果曲线转换为Weierstrass模型。

随后,他扩展了该应用,加入了更稳定的奇点可视化功能以及可在后续工作中复用的精确系数。

打开网易新闻 查看精彩图片

知名AI测评网红Matthew Berman称其最近两周都在测试GPT-5.5,他感受到OpenAI改进了模型的个性,他认为这是为了抢占更多个人智能体(如 OpenClaw)市场。“它的回答更简洁、更像真人、不那么正式。它确实有了自己的个性。”

打开网易新闻 查看精彩图片

价格上,GPT-5.5定价为每100万输入token 5美元,每100万输出token 30美元,上下文窗口为100万token。与GPT-5.4相比,其价格整体贵了一倍。

GPT-5.5 Pro定价为每100万输入token 30美元,每100万输出token 180美元

打开网易新闻 查看精彩图片

与Anthropic的Claude模型的价格相比,GPT-5.5的价格与Opus 4.7几乎持平,在输出定价上每100万token比Opus 4.7贵5美元。

打开网易新闻 查看精彩图片

今天,GPT‑5.5正在向ChatGPT和Codex中的Plus、Pro、Business和Enterprise用户逐步推出,GPT‑5.5 Pro则向ChatGPT中的 Pro、Business和Enterprise用户推出。

在ChatGPT中,GPT‑5.5 Thinking面向Plus、Pro、Business和Enterprise用户开放。对于API开发者,gpt-5.5即将在Responses API和Chat Completions API中提供。

GPT-5.5发布之际,正值Claude Code最近性能变差屡遭投诉。或许是感受到来自GPT-5.5的压力,Anthropic今日发长文宣布已修复降智问题,并自今日起重置所有订阅用户的使用限制。

打开网易新闻 查看精彩图片

一、登顶编码Agent榜首,成本仅为竞品一半

OpenAI团队称,GPT‑5.5是OpenAI迄今为止最强大的Agentic Coding模型

Artificial Analysis智能指数⁠是由第三方机构运行的10项评估的加权平均值,具体包括:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。

Artificial Analysis官方发文称,OpenAI的GPT-5.5(xhigh)在Terminal-Bench Hard、GDPval-AA以及APEX-Agents-AA中均处于领先地位。该模型仅在CritPt 和AA-LCR上落后于其他OpenAI模型,并在另外三项评估中仅次于Gemini 3.1 Pro Preview,综合表现排名第一。

打开网易新闻 查看精彩图片

根据Artificial Analysis的智能指数,GPT‑5.5在成绩最高的同时,其成本仅为同类前沿编码模型的一半

打开网易新闻 查看精彩图片

在复杂执行测试Terminal-Bench 2.0上,GPT‑5.5的成绩为82.7%。在 真实世界问题解决测试SWE-Bench Pro上,它取得了58.6%的成绩,单次端到端解决的任务数量超过以往模型。在内部长周期任务测试Expert-SWE上,GPT‑5.5同样优于GPT‑5.4。

在所有这三项评估中,GPT‑5.5在比GPT‑5.4使用更少token的同时,得分均有提升。

打开网易新闻 查看精彩图片

该模型在编码方面的优势在Codex中表现得尤为突出。在Codex中,GPT‑5.5可以承担从实现、重构到调试、测试和验证等一系列工程工作。

早期测试表明,GPT‑5.5能更好地胜任实际工程工作所依赖的行为,例如在大型系统中保持上下文理解、针对模糊的故障进行推理、通过工具验证假设,以及对相关的整个代码库进行变更同步。

例如,GPT‑5.5可以使用NASA/JPL Horizons提供的猎户座飞船、月球和太阳的矢量数据渲染出运行轨迹,并且还可以进行显示缩放:

▲太空任务App

GPT‑5.5还能够制作出一个可以动态显示地震频次、地点等信息的追踪网站:

▲地震追踪

配合Codex,用户可以使用GPT‑5.5制作出可玩的3D游戏:

▲3D地牢竞技场游戏

二、客服测试成绩达98%,能自主浏览界面操作工具

由于GPT‑5.5能更好地理解用户意图,它可以更自然地完成知识型工作的整个闭环:查找信息、理解重点、使用工具、检查输出结果,并将原始素材转化为有用的成果。

在ChatGPT中,GPT‑5.5 Thinking(思维模式)在编码、研究、信息综合与分析以及文档密集型任务等专业性工作中表现出色。

基准测试方面,在规范知识型工作测试GDPva上,GPT‑5.5获得了84.9%的分数。在真实操作计算机测试OSWorld-Verified上,该模型达到了78.7%。在客服测试Tau2-bench Telecom上,GPT‑5.5在未经提示调优的情况下达到了98.0%的分数。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

GPT‑5.5在其他知识型工作基准测试中也表现也很亮眼:在FinanceAgent上为60.0%,在内部投资银行建模任务上为88.5%,在OfficeQA Pro上为54.1%

实际应用中,在Codex中,GPT‑5.5在生成文档、电子表格和幻灯片演示方面优于GPT‑5.4。alpha测试人员表示,在运营研究、电子表格建模以及将杂乱无章的业务信息转化为计划等工作上,它的表现超过了以往的模型。

当结合Codex的计算机使用技能时,GPT‑5.5模型似乎真的在与用户一起使用计算机:它能查看屏幕上的内容、点击、打字、浏览界面,并在不同工具之间协同操作。

例如,OpenAI财务团队使用Codex审阅了24771份K-1税务表格,总计71637页,所采用的工作流程帮助团队节省了两周的时间。

▲财务模型

用户团队则可以利用GPT‑5.5设计并调试新客户引导流程:

▲测试新用户引导流程

三、发现拉姆齐数新证明,在遗传学生物学表现亮眼

GPT‑5.5在科学和技术研究工作流上的表现也有所进步。在科研中,研究人员需要探索一个想法、收集证据、检验假设、解读结果,并决定下一步的尝试方向。

用户可以用GPT‑5.5 Thing反复审阅稿件草稿、对技术论证进行压力测试、提出分析建议,并协同处理代码、笔记以及PDF上下文。GPT‑5.5更擅长帮助研究人员从提出问题到进行实验,再到最终产出成果。

GeneBench⁠是一个专注于遗传学和定量生物学中多阶段科学数据分析的新评估基准,GPT‑5.5相较于GPT‑5.4表现出明显的提升。

打开网易新闻 查看精彩图片

这些问题要求模型在极少的监督指导下,对可能存在歧义或错误的数据进行推理,应对诸如隐藏混杂因素或质控失败等现实障碍,并正确实现和解读现代统计方法。考虑到这些任务通常相当于科学专家需要耗时数天的项目,该模型的表现令人瞩目。

同样,在围绕真实世界生物信息学与数据分析设计的基准测试BixBench⁠上,GPT‑5.5在已公布分数的模型中领先。

打开网易新闻 查看精彩图片

在安全方面,OpenAI团队介绍称,其为GPT‑5.5配备了迄今为止最强大的安全防护措施

他们在全套安全和准备框架下对该模型进行了评估,与内部及外部红队成员合作,针对高级网络安全和生物学能力增加了针对性测试,并在发布前收集了近200个值得信赖的早期合作伙伴在实际用例中的反馈。

结语:OpenAI向自主执行更进一步

GPT-5.5的发布,标志着OpenAI正将大模型的能力内核转向执行。

在追求更大参数与更强算力的行业热潮中,GPT-5.5选择了一条更务实的路径:用更少的token完成更多的事。无论是编码、知识工作还是科学研究,它都展示了效率与智能并非不可兼得。

其性价比、多工具协同能力以及安全防护机制,为开发者和企业用户提供了更强大的生产力工具。