打开网易新闻 查看精彩图片

就在刚刚,AI 界再次变天!

OpenAI 今天凌晨正式发布了全新旗舰模型 ——GPT-5.4!

这次一口气发了两个版本: GPT-5.4 Thinking 与 GPT-5.4 Pro。

这次的模型定位又上了一个层次:专为专业办公而生!

如果说之前的 GPT 是个“能说会道”的军师,那么今天的 GPT-5.4 则是直接长出了双手的“超级干将”。它不仅能思考、能编程,更进化出了逆天的原生“计算机控制”能力

可以说,GPT-5.4 把 OpenAI 最近几代模型的能力整合在了一起:

GPT-5.2 的推理能力

GPT-5.3-Codex 的编程能力

Agent 工作流能力

最终形成一个新的统一模型。目标就是自动完成复杂任务。

从写代码、做 PPT、建财务模型,到自动操作电脑、跨软件执行任务,GPT-5.4 正在把 AI 从一个“聊天工具”,变成真正的数字员工

打开网易新闻 查看精彩图片

堪比AI的成年礼

话不多说,先来看核心亮点,这简直就是 AI 的“成年礼”。总结有四点:

第一,GPT终于实际意义上长出“双手”:OpenAI首个具备原生、最先进计算机操作能力(Computer Use)的通用模型。

第二,满分文档侠:幻觉率大幅降低,Excel、PPT、Word 处理能力达到人类专家水准。

第三,百万级视野:支持100 万 token超长上下文,复杂任务不再“断片”。

第四,思考可视化:全新的“思维草稿”功能,你可以实时介入并修正 AI 的思考路径。

逆天进化:它能像人一样操作你的电脑

这是本次发布最炸裂的部分。GPT-5.4 拥有了原生的视觉感知和鼠标键盘控制能力。(也就是说,它可以像人一样通过截图、点击鼠标、敲击键盘来操作真实的电脑界面。 )

在 OSWorld 测评(衡量 AI 操作桌面环境的能力)中,GPT-5.4 的成功率达到了75.0%,不仅远超前代的 47.3%,甚至超越了人类的平均水平(72.4%)

打开网易新闻 查看精彩图片

注意:

这里的 tool yields 是指助手让步以等待工具响应。如果并行调用 3 个工具,然后又并行调用 3 个工具,那么产出次数将是 2 次。工具产出比工具调用更能反映延迟,因为它们体现了并行化的优势。

关键是,操作速度也比前代有大幅提升,下面是视频未加速的场景。

打开网易新闻 查看精彩图片

AI 可以通过浏览器界面完成一整套任务:

读取邮件、下载附件、批改作业、记录成绩到 Excel整个流程完全自动化。

GPT-5.4会:

自动打开浏览器寻找资料,再复制到你的 Excel。

直接在专业的软件后台通过鼠标点击完成操作。

理解复杂的 UI 界面,甚至能帮你在高分辨率图像中定位到一个极小的按钮。

这就是Agent 时代真正需要的能力

Excel、PPT、文档能力明显变强

OpenAI这次特别强化了一类任务:办公软件工作。

例如:在Excel方面,

在模拟投行初级分析师的建模任务中,跟前代对比,提升十分明显:

GPT-5.4 得分:87.3%

GPT-5.2 得分:68.4%

PPT方面,在人工评审中:

68% 的评委更喜欢 GPT-5.4 制作的演示文稿。

原因主要有三个:视觉设计更好、版式更丰富、图片使用更合理。

这意味着 AI 正在真正进入白领工作的核心工具链

打开网易新闻 查看精彩图片

知识工作性能,逼近专业人士

这还不够,GPT-5.4 已经可以逼近专业人士了!

GDPval的评测中,GPT-5.4 的表现非常惊人。这个评测模拟44 种职业的真实工作任务,包括:制作销售方案、设计生产流程图、建立会计报表、排班表、制作短视频

结果是:GPT-5.4 在 83% 的对比中,达到或超过行业专业人士水平。

而 GPT-5.2 的成绩只有70.9%

AI 在知识工作的质量上,又往前迈了一大步。

打开网易新闻 查看精彩图片

开发者狂欢:编程与工具调用的终极形态

编程能力上,GPT-5.4 有两大升级。

第一,GPT-5.3-Codex 的完美融合:GPT-5.4 整合了此前专为写代码设计的 GPT-5.3-Codex 的能力,且支持 /fast 模式,速度提升 1.5 倍,让代码生成“几乎瞬发”。在 SWE-Bench Pro 上得分 57.7%,与 GPT-5.3-Codex 的 56.8% 相当,但延迟更低。

第二,工具搜索(Tool Search):以往给模型配备大量外部工具时,所有工具定义都要塞进提示词里,动辄消耗数万个 token。 GPT-5.4 改为按需查找工具,在测试中将 token 消耗减少了 47%,对于依赖大量 MCP 工具的开发者来说成本节省明显。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

而且,OpenAI表示,在开发复杂任务时,他们致力于让模型能够非常擅长检查它自己的工作。

OpenAI 研究员 SQ Mah 还现场给出了完成复杂应用开发的实际案例。

打开Codex,使用GPT-5.4 Thinking,并把推理等级调到High Reasoning

任务是:

构建并测试一个3D 国际象棋游戏的 Electron 应用

SQ还给模型增加一点挑战:

让棋子具备玻璃(glass)和大理石(marble)两种材质效果

结果,GPT-5.4完成得非常丝滑逼真:

打开网易新闻 查看精彩图片

SQ总结道,GPT-5.4在应用开发方面重点提升了两项能力:

第一,是它使用Computer Use的能力。第二,是它通过图像输入生成高质量网站的能力。

值得注意的是,当我们让模型使Computer Use时,与 5.3 Codex 相比,它不再需要为此启动一个新的环境。它更像是人类通过界面与电脑交互的方式

打开网易新闻 查看精彩图片

同时,在一些让模型执行测试任务的场景中,token 使用量下降了三分之二,这一点非常令人兴奋。

更好用的“Thinking”:思考可见,实时校准

在 ChatGPT 中,GPT-5.4 Thinking 现在支持在生成过程中展示思考计划,这里添加了一项最酷的功能:中途修正:——不用等模型跑完再重新来过。

当你在屏幕上看到它的思考偏离了你的预期时,你可以直接通过指令“掰正”它。就像在指导一个实习生,你不需要等他做完整套错误的 PPT,在他构思大纲时就能介入。

价格略涨、5.2即将退伍

在 ChatGPT 中,GPT-5.4 Thinking 将 定价方面,API 输入价格从 GPT-5.2 的每百万 token 1.75 美元涨至 2.50 美元,输出价格从 14 美元涨至 15 美元。

GPT-5.4 今天起向 ChatGPT Plus、Team、Pro 用户开放,取代 GPT-5.2 Thinking 成为默认推理模型,GPT-5.2 Thinking 将在三个月后于 2026 年 6 月 5 日正式退役。

个人用户:Plus、Team 和 Pro 用户今日起即可体验 GPT-5.4 Thinking。

企业用户:专属的GPT-5.4 Pro提供极限性能,专门对付最难的骨头。

API 价格:GPT-5.4 相比 5.2 略有提价,但由于Token 效率显著提升(解决同样问题用的字数更少了),总成本在很多场景下反而更低。

模型

输入 (每百万 Token)

输出 (每百万 Token)

GPT-5.4

$2.50

$15

GPT-5.4 Pro

$30

$180

AI 正在进入数字员工时代

如果总结 GPT-5.4 的核心变化,其实只有一句话:AI 正在从助手变成员工。

如果说 GPT-4 开启了对话时代,GPT-5.4 则正式宣告了“AI 数字员工”时代的到来。它不再仅仅是回答问题,而是开始接管电脑,处理那些枯燥、重复、高压的专业文档。

大模型终于在Computer User上做到快速准确地自动完成专业的复杂任务了!

自动完成市场调研、自动生成商业计划书、自动开发软件、自动执行网页任务……

Sam 在 X 上非常兴奋地表示:我认为人们会喜欢它!

只能说,大家今后的职场格局,要变天了!