凌晨，GPT-5.5收复失地！Anthropic紧急出手|gpt|人工智能模型|智能体|编程|计算机

智东西4月24日报道，今天凌晨，OpenAI智能体编程模型GPT‑5.5正式发布！

GPT‑5.5能更快地理解用户的目标，擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格以及在多个工具之间协同操作。

▲OpenAI官宣推文（指路：https://x.com/OpenAI/status/2047376561205325845）

OpenAI团队将其称之为“这是我们迄今为止最智能、最直观易用的模型，也是迈向在计算机上完成工作的全新方式的重要一步。”

Sam Altman本人评价该模型：“根据我的经验，它‘知道该做什么’。”

在性能上，GPT‑5.5的提升在智能体编码、计算机使用、知识型工作以及早期科学研究等领域尤为显著——这些领域的进展依赖于跨上下文的推理和持续的自主行动。

在编程能力上，GPT‑5.5全面超越了Gemini 3.1 Pro；在专业任务、计算机使用与视觉、工具使用以及抽象推理方面，其在大部分测试集的成绩都高于Claude Opus 4.7和Gemini 3.1 Pro。

但在学术和工具使用能力上，GPT‑5.5与Claude Opus 4.7和Gemini 3.1 Pro并未拉出明显差距。

在速度上，GPT‑5.5在实际服务中保持了与GPT‑5.4相当的每token延迟，同时实现了更高的智能水平。完成相同的Codex任务时，GPT‑5.5使用的token数显著更少，因此效率更高、能力也更强。

模型一经发布，就有很多参与内部测试的网友分享了他们的使用感受。

开源项目Claude Engineer的创建者、AI设计助手MagicPath的CEO Pietro Schirano分享称，GPT-5.5只用了大约20分钟就帮他自动对比了其项目两个版本的代码差异，然后基于正式版本创建了新分支，还将其他分支的所有改动完美合并了进去。

他还用GPT-5.5一次性生成了一个可玩的3D射击游戏，游戏整体操作手感流畅，而且每一个图形都是由Three.js从零生成的。

此外，Pietro Schirano让GPT-5.5通过USB连接为他的Flipper Zero创建了应用程序，并成功地将它们推送到了设备上。

Pietro Schirano感慨道：“GPT-5.5是我用过的最强大的工具。我第一次感觉自己不再受限于模型的功能，而只受限于我的想象力。训练工作流程、不可能的优化、通过USB进行硬件实验。Vibe硬件时代开启。”

AI工程师Peter Gostev深度体验了GPT-5.5，并放出了他用GPT-5.5工作的几个例子。他分享称，用户可以给GPT-5.5设定好步骤提示词，GPT-5.5就会按照步骤逐项完成，亲测至少可以稳定自主运行7个小时。

Peter Gostev要求GPT-5.5创建一个带有地标和季节变化的伦敦玩具铁路，该模型一次性就出色地完成了任务。他对比发现，相比于GPT-5.4，GPT-5.5生成的作品在构思上要宏大得多、逻辑更连贯，而且错误也更少。

波兰波兹南密茨凯维奇大学数学系助理教授Bartosz Naskręcki使用Codex中的GPT‑5.5，仅凭一条提示词，在11分钟内就构建了一个代数几何应用，该应用能够可视化二次曲面的交线，并将结果曲线转换为Weierstrass模型。

随后，他扩展了该应用，加入了更稳定的奇点可视化功能以及可在后续工作中复用的精确系数。

知名AI测评网红Matthew Berman称其最近两周都在测试GPT-5.5，他感受到OpenAI改进了模型的个性，他认为这是为了抢占更多个人智能体（如 OpenClaw）市场。“它的回答更简洁、更像真人、不那么正式。它确实有了自己的个性。”

价格上，GPT-5.5定价为每100万输入token 5美元，每100万输出token 30美元，上下文窗口为100万token。与GPT-5.4相比，其价格整体贵了一倍。

GPT-5.5 Pro定价为每100万输入token 30美元，每100万输出token 180美元。

与Anthropic的Claude模型的价格相比，GPT-5.5的价格与Opus 4.7几乎持平，在输出定价上每100万token比Opus 4.7贵5美元。

今天，GPT‑5.5正在向ChatGPT和Codex中的Plus、Pro、Business和Enterprise用户逐步推出，GPT‑5.5 Pro则向ChatGPT中的 Pro、Business和Enterprise用户推出。

在ChatGPT中，GPT‑5.5 Thinking面向Plus、Pro、Business和Enterprise用户开放。对于API开发者，gpt-5.5即将在Responses API和Chat Completions API中提供。

GPT-5.5发布之际，正值Claude Code最近性能变差屡遭投诉。或许是感受到来自GPT-5.5的压力，Anthropic今日发长文宣布已修复降智问题，并自今日起重置所有订阅用户的使用限制。

一、登顶编码Agent榜首，成本仅为竞品一半

OpenAI团队称，GPT‑5.5是OpenAI迄今为止最强大的Agentic Coding模型。

Artificial Analysis智能指数⁠是由第三方机构运行的10项评估的加权平均值，具体包括：AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。

Artificial Analysis官方发文称，OpenAI的GPT-5.5（xhigh）在Terminal-Bench Hard、GDPval-AA以及APEX-Agents-AA中均处于领先地位。该模型仅在CritPt 和AA-LCR上落后于其他OpenAI模型，并在另外三项评估中仅次于Gemini 3.1 Pro Preview，综合表现排名第一。

根据Artificial Analysis的智能指数，GPT‑5.5在成绩最高的同时，其成本仅为同类前沿编码模型的一半。

在复杂执行测试Terminal-Bench 2.0上，GPT‑5.5的成绩为82.7%。在真实世界问题解决测试SWE-Bench Pro上，它取得了58.6%的成绩，单次端到端解决的任务数量超过以往模型。在内部长周期任务测试Expert-SWE上，GPT‑5.5同样优于GPT‑5.4。

在所有这三项评估中，GPT‑5.5在比GPT‑5.4使用更少token的同时，得分均有提升。

该模型在编码方面的优势在Codex中表现得尤为突出。在Codex中，GPT‑5.5可以承担从实现、重构到调试、测试和验证等一系列工程工作。

早期测试表明，GPT‑5.5能更好地胜任实际工程工作所依赖的行为，例如在大型系统中保持上下文理解、针对模糊的故障进行推理、通过工具验证假设，以及对相关的整个代码库进行变更同步。

例如，GPT‑5.5可以使用NASA/JPL Horizons提供的猎户座飞船、月球和太阳的矢量数据渲染出运行轨迹，并且还可以进行显示缩放：

▲太空任务App

GPT‑5.5还能够制作出一个可以动态显示地震频次、地点等信息的追踪网站：

▲地震追踪

配合Codex，用户可以使用GPT‑5.5制作出可玩的3D游戏：

▲3D地牢竞技场游戏

二、客服测试成绩达98%，能自主浏览界面操作工具

由于GPT‑5.5能更好地理解用户意图，它可以更自然地完成知识型工作的整个闭环：查找信息、理解重点、使用工具、检查输出结果，并将原始素材转化为有用的成果。

在ChatGPT中，GPT‑5.5 Thinking（思维模式）在编码、研究、信息综合与分析以及文档密集型任务等专业性工作中表现出色。

基准测试方面，在规范知识型工作测试GDPva上，GPT‑5.5获得了84.9%的分数。在真实操作计算机测试OSWorld-Verified上，该模型达到了78.7%。在客服测试Tau2-bench Telecom上，GPT‑5.5在未经提示调优的情况下达到了98.0%的分数。