OpenAI周四发布GPT-5.3-Codex。该公司称,这是迄今为止能力最强的编程代理。值得注意的是,此次发布的时间点被精准安排在Anthropic推出其旗舰模型升级版Claude Opus 4.6的同一时刻。媒体称,两大模型同步亮相,被业内观察人士视为“AI编程大战”的第一枪——这是一场围绕企业级软件开发市场展开的高风险争夺战。

OpenAI首席执行官Sam Altman在模型发布几分钟后就在X上写道:

“我非常喜欢用这个模型来开发,它带来的进步感受,远远超过基准测试所显示的幅度。”
“看着我们用5.3-Codex来开发5.3-Codex,从而把发布速度提升到这么快,真的令人震撼,这毫无疑问预示着未来的发展方向。”

媒体表示,模型本身参与了自身的构建,被视为AI发展中的一个重要里程碑。根据OpenAI的公告,Codex团队使用GPT-5.3-Codex的早期版本来调试自身的训练过程、管理部署基础设施,并诊断测试结果和评估情况。OpenAI将其称为“我们首个在自身创建过程中发挥关键作用的模型”。

GPT-5.3-Codex多项基准成绩领先Claude达到两位数

OpenAI表示,新模型在多项行业基准测试中实现了显著提升。GPT-5.3-Codex在SWE-Bench Pro上取得了57%的成绩。SWE-Bench Pro是一项极为严格的真实世界软件工程评测,涵盖四种编程语言,重点考察抗数据污染、具有工业相关性的挑战。

打开网易新闻 查看精彩图片

该模型在Terminal-Bench 2.0上得分77.3%,这一基准主要衡量编程代理所必需的终端操作能力;在OSWorld上得分64%,该测试要求模型在可视化桌面环境中完成生产力任务,是一项强调“代理式”计算机使用能力的评估。

其中,Terminal-Bench 2.0的结果尤为引人注目。根据周三公布的性能数据,GPT-5.3-Codex的得分为77.3%,而GPT-5.2-Codex为64.0%,基础版GPT-5.2模型为62.2%。也就是说,仅一代升级,成绩就提升了13个百分点。一位X平台用户指出,这一成绩“彻底碾压”了Anthropic的Opus 4.6,后者据称在同一基准上的得分为65.4%。

打开网易新闻 查看精彩图片

OpenAI还表示,新模型是在效率大幅提升的情况下实现上述成绩的:在完成同等任务时,所需token数量不到上一代模型的一半,同时单个token的推理速度提升超过25%。

OpenAI在公告中称:

“值得注意的是,GPT-5.3-Codex在使用的token数量上低于任何此前模型,这让用户能够做更多事情。”
从编程助手到编程操作者

相比基准测试的提升,更重要的是OpenAI对GPT-5.3-Codex的定位。该公司明确表示:

“Codex正从一个只能编写和审查代码的代理,进化为一个几乎可以完成开发者和专业人士在电脑上所做任何事情的代理。”

这一能力扩展涵盖了调试、部署、监控、撰写产品需求文档、编辑文案、开展用户研究、制作演示文稿,以及在电子表格应用中分析数据等。该模型在GDPVal评估中表现突出。GDPVal是OpenAI于2025年发布的一项评估,用于衡量模型在44种职业中、对定义明确的知识型工作任务的完成能力。

分析认为,这一扩展信号表明,OpenAI的目标不仅是开发者工具市场,还包括更广泛的企业生产力软件领域。该市场的既有玩家包括Microsoft、Salesforce和ServiceNow,这些公司都在加速将AI代理嵌入自身平台。

OpenAI首个“高能力”网络安全模型

向通用计算能力的转变,也带来了新的安全考量。OpenAI表示,GPT-5.3-Codex是其首个在“准备度框架”下,被归类为在网络安全相关任务上具备“高能力”的模型,同时也是首个被直接训练用于识别软件漏洞的模型。

OpenAI表示:“尽管我们尚未发现它可以端到端自动化网络攻击的确凿证据,但我们采取了审慎策略,部署了迄今为止最全面的网络安全防护体系。”相关措施包括双用途安全训练、自动化监控、对高级能力实行可信访问机制,以及结合威胁情报的执行管线。

Altman也在X上强调了这一进展:

“这是我们首个在准备度框架中,网络安全能力达到‘高’级别的模型。我们正在试点可信访问框架,并承诺投入1000万美元的API额度,用于加速网络防御。”

此外,OpenAI还在扩大其安全研究代理Aardvark的私有测试,并与开源维护者合作,为广泛使用的项目提供免费的代码库扫描。OpenAI以Next.js为例,称一名安全研究人员上周就曾使用Codex发现并披露了相关漏洞。

同日同时发布最新模型,OpenAI与Anthropic的竞争白热化

不过,该公司网络安全方面的宣布,很快被OpenAI与Anthropic之间的对抗所掩盖。媒体表示,若脱离背景,很难理解周四这一发布时间点的意义。

Anthropic是一家以AI安全为核心的初创公司,成立于2021年,由多名前OpenAI研究人员创办,其中包括Dario Amodei和Daniela Amodei。

两家公司都将重大产品发布安排在当天美西时间上午10点。Anthropic发布了Claude Opus 4.6,并将其描述为“最聪明的模型”,称其“规划更谨慎、能更长时间持续执行代理式任务、在超大型代码库中运行可靠,并且能够发现并纠正自身错误”。

而这一正面交锋的背后,是一周不断升级的紧张关系。Anthropic宣布,将在超级碗期间播出广告,嘲讽OpenAI近期开始在ChatGPT免费用户中测试广告的决定。

Altman随后作出罕见的直接回应,在一篇长篇X帖中称这些广告“好笑”,但“明显不诚实”。

Altman写道:

“我们显然永远不会像Anthropic广告中描绘的那样投放广告。我们并不愚蠢,也知道用户绝不会接受那种做法。”
“我想这倒是很符合Anthropic一贯的‘双重话术’风格,用一个具有误导性的广告,去批评根本不存在的、理论上的误导性广告,但超级碗广告并不是我预期会看到这种事情的地方。”

他进一步将Anthropic形容为一家“威权式公司”,称其“想要控制人们如何使用AI”。

Altman写道:

“Anthropic向富人提供昂贵的产品。使用ChatGPT免费版的德州人数量,比美国使用Claude的总人数还要多,所以我们面临的是完全不同形态的问题。”
企业AI支出远超预期,OpenAI市场份额面临Anthropic与谷歌挤压

公开的口水战背后,是一场极其严肃的商业竞争。这一对抗发生在企业级AI应用爆发式增长的大背景下,双方都在争夺一个迅速扩张的市场。

根据Andreessen Horowitz本周发布的调查数据,企业在大语言模型上的支出,已经大幅超过此前即便相当乐观的预测。2025年,企业平均在LLM上的支出达到700万美元,较2024年实际支出的250万美元高出180%,也比企业在一年前对2025年的预测高出56%。预计到2026年,单个企业的支出将达到1160万美元,再增长65%。

a16z的数据还揭示了市场格局的变化。OpenAI仍然占据企业AI支出中最大的份额,但这一份额正在缩小——从2024年的62%,下降至预计2026年的53%。同期,Anthropic的份额从14%上升至预计18%,Google也呈现出类似的增长趋势。

在企业使用模式上,情况更加微妙。虽然OpenAI在总体使用量上领先,但在接受调查的OpenAI客户中,只有46%在生产环境中使用其最强模型;而Anthropic和Google这一比例分别为75%和76%。如果将测试环境也计算在内,89%的Anthropic客户正在测试或使用其最强模型,这一比例在主要厂商中最高。

在软件开发这一双方编程代理的核心应用场景中,a16z调查显示,OpenAI的市场份额约为35%,而Anthropic则占据了剩余市场中相当可观、且持续增长的一部分。

OpenAI承诺未来数周推出更多Codex功能

展望未来,OpenAI表示,GPT-5.3-Codex已立即向付费ChatGPT用户开放,覆盖所有Codex使用场景,包括桌面应用、命令行接口、IDE扩展和网页端,API接口预计随后推出。

该模型还加入了一项新的交互功能:用户可以在“务实型”和“友好型”两种性格之间进行选择。Altman表示,用户对这一点有着强烈偏好。在更实质性的层面上,模型在执行任务过程中会频繁提供进度更新,允许用户实时互动、提问、讨论思路,并在不丢失上下文的情况下引导解决方案。

OpenAI表示:

“你不再需要等待最终结果,而是可以实时互动。GPT-5.3-Codex会讲清楚它正在做什么,响应反馈,并从头到尾让你保持知情。”

公司承诺,未来几周还将推出更多能力。Altman直言:“我相信Codex会赢。”

他在回应Anthropic时,用一句颇具哲学意味的话为这场竞争定调:

“这个时代,属于建设者,而不属于那些想要控制他们的人。”