GPT-5.4登场，职场巨变！数字员工时代生产力飞跃开启！|gpt|数字员工|编程|调用

就在刚刚，AI 界再次变天！

OpenAI 今天凌晨正式发布了全新旗舰模型 ——GPT-5.4！

这次一口气发了两个版本： GPT-5.4 Thinking 与 GPT-5.4 Pro。

这次的模型定位又上了一个层次：专为专业办公而生！

如果说之前的 GPT 是个“能说会道”的军师，那么今天的 GPT-5.4 则是直接长出了双手的“超级干将”。它不仅能思考、能编程，更进化出了逆天的原生“计算机控制”能力。

可以说，GPT-5.4 把 OpenAI 最近几代模型的能力整合在了一起：

GPT-5.2 的推理能力

GPT-5.3-Codex 的编程能力

Agent 工作流能力

最终形成一个新的统一模型。目标就是自动完成复杂任务。

从写代码、做 PPT、建财务模型，到自动操作电脑、跨软件执行任务，GPT-5.4 正在把 AI 从一个“聊天工具”，变成真正的数字员工。

堪比AI的成年礼

话不多说，先来看核心亮点，这简直就是 AI 的“成年礼”。总结有四点：

第一，GPT终于实际意义上长出“双手”：OpenAI首个具备原生、最先进计算机操作能力（Computer Use）的通用模型。

第二，满分文档侠：幻觉率大幅降低，Excel、PPT、Word 处理能力达到人类专家水准。

第三，百万级视野：支持100 万 token超长上下文，复杂任务不再“断片”。

第四，思考可视化：全新的“思维草稿”功能，你可以实时介入并修正 AI 的思考路径。

逆天进化：它能像人一样操作你的电脑

这是本次发布最炸裂的部分。GPT-5.4 拥有了原生的视觉感知和鼠标键盘控制能力。（也就是说，它可以像人一样通过截图、点击鼠标、敲击键盘来操作真实的电脑界面。）

在 OSWorld 测评（衡量 AI 操作桌面环境的能力）中，GPT-5.4 的成功率达到了75.0%，不仅远超前代的 47.3%，甚至超越了人类的平均水平（72.4%）！

注意：

这里的 tool yields 是指助手让步以等待工具响应。如果并行调用 3 个工具，然后又并行调用 3 个工具，那么产出次数将是 2 次。工具产出比工具调用更能反映延迟，因为它们体现了并行化的优势。

关键是，操作速度也比前代有大幅提升，下面是视频未加速的场景。

AI 可以通过浏览器界面完成一整套任务：

读取邮件、下载附件、批改作业、记录成绩到 Excel整个流程完全自动化。

GPT-5.4会：

自动打开浏览器寻找资料，再复制到你的 Excel。

直接在专业的软件后台通过鼠标点击完成操作。

理解复杂的 UI 界面，甚至能帮你在高分辨率图像中定位到一个极小的按钮。

这就是Agent 时代真正需要的能力。

Excel、PPT、文档能力明显变强

OpenAI这次特别强化了一类任务：办公软件工作。

例如：在Excel方面，

在模拟投行初级分析师的建模任务中，跟前代对比，提升十分明显：

GPT-5.4 得分：87.3%

GPT-5.2 得分：68.4%

PPT方面，在人工评审中：

68% 的评委更喜欢 GPT-5.4 制作的演示文稿。

原因主要有三个：视觉设计更好、版式更丰富、图片使用更合理。

这意味着 AI 正在真正进入白领工作的核心工具链。

知识工作性能，逼近专业人士

这还不够，GPT-5.4 已经可以逼近专业人士了！

在GDPval的评测中，GPT-5.4 的表现非常惊人。这个评测模拟44 种职业的真实工作任务，包括：制作销售方案、设计生产流程图、建立会计报表、排班表、制作短视频

结果是：GPT-5.4 在 83% 的对比中，达到或超过行业专业人士水平。

而 GPT-5.2 的成绩只有70.9%。

AI 在知识工作的质量上，又往前迈了一大步。

开发者狂欢：编程与工具调用的终极形态

编程能力上，GPT-5.4 有两大升级。

第一，GPT-5.3-Codex 的完美融合：GPT-5.4 整合了此前专为写代码设计的 GPT-5.3-Codex 的能力，且支持 /fast 模式，速度提升 1.5 倍，让代码生成“几乎瞬发”。在 SWE-Bench Pro 上得分 57.7%，与 GPT-5.3-Codex 的 56.8% 相当，但延迟更低。

第二，工具搜索（Tool Search）：以往给模型配备大量外部工具时，所有工具定义都要塞进提示词里，动辄消耗数万个 token。 GPT-5.4 改为按需查找工具，在测试中将 token 消耗减少了 47%，对于依赖大量 MCP 工具的开发者来说成本节省明显。