GPT-5.4拿下75%人类基准测试，我的团队只拿了72|gpt|基准测试|工作流|数据源|重复性

75%对72.4%。这组数字在上周二的数据复盘会上被丢进Slack时，整个频道安静了四分钟。不是那种"大家在忙没看消息"的安静，是那种"所有人都盯着屏幕，手指悬在键盘上不知道打什么"的安静。

说话的是我的高级分析师Maria。她平时发消息带表情包，这次只甩了一个链接和那句"Have you seen what GPT-5.4 scored on OSWorld-V?"

我回了句"晚点聊"，然后关掉通知，继续讲Q1的归因模型。但说实话，那48小时我一直在想：该怎么跟团队开口。

OSWorld-V是什么，以及为什么75%这个数字很扎心

先解释这个 benchmark。OSWorld-V 不是那种"解数学题"或者"写代码"的测试，它模拟的是真实的桌面办公场景：打开Excel拉数据、跨应用复制粘贴、整理文件夹、生成报告、处理邮件附件。简单说，就是你我每天早上坐到电脑前干的那些杂活。

人类基线72.4%，来自对200名知识工作者的实测。这些人有3-8年工作经验，分布在咨询、金融、运营等岗位。测试环境完全开放，允许Google搜索、允许试错、允许"哎呀这个快捷键我忘了"的真实状态。

GPT-5.4的75%，是在相同条件下跑的。模型自己操作虚拟桌面，自己决定点哪里、输入什么、什么时候保存。没人给它写脚本，没人告诉它"第3步要按Ctrl+Shift+V"。

Maria后来私下问我：这算"超过人类"吗？

我当时的回答是：算，也不算。75%对72.4%在统计上确实显著，但OSWorld-V的测试时长只有90分钟。真实工作不是90分钟的闭卷考试，是8小时里不断被打断、重新进入心流、再被打断的马拉松。模型现在还不能处理"老板突然插进来的紧急任务"或者"同事在Slack上@你问一个蠢问题"这种上下文切换。

但我说完这段话，自己也没底气。因为2024年GPT-4在同样测试里只有12%，2025年中某个版本跳到34%，现在75%。这个斜率让我失眠。

我的团队真实水平，以及我为什么不敢公开聊

我们的数据团队12人，平均工龄4年。我让他们匿名做了OSWorld-V的简化版——去掉一些需要企业内网权限的任务，保留核心流程。平均分72%，中位数71%，最高81%来自一个工作6年的老分析师。

也就是说，我们团队的中位数比GPT-5.4低4个百分点。最高分比模型高6个百分点，但那是全组经验最丰富的人，而模型是批量生产的。

我在周会上没提这个内部测试。只说了官方数字，然后补了一句："大家注意，benchmark是benchmark，实际业务场景复杂得多。"

这句话是事实，但也是逃避。我没说的是：我们正在评估的3个自动化项目，原本计划招2个初级分析师，现在预算被冻结了。我没说的是，CTO上周问我"数据团队明年能不能缩编30%"。

最讽刺的是，我自己就是那个推动用AI做数据清洗的人。2024年我们上了自动化pipeline，3个ETL工程师转岗去做分析。当时我觉得这是"升级"，现在看可能是"预演"。

GPT-5.4能做什么，以及它还不能做什么

为了验证边界，我让Maria设计了一个真实任务：从Salesforce导出Q1客户数据，匹配HubSpot的营销互动记录，按行业分组计算CAC（客户获取成本），输出PPT格式的摘要。

她给模型的是完全开放的虚拟机，安装了和我们一样的软件栈，但没有任何预配置。

GPT-5.4的表现分三个阶段：

前20分钟，它像刚入职的实习生。Salesforce的界面改版了，它找了3分钟才定位到导出按钮。HubSpot的API调用次数限制让它卡住，它尝试了4种不同的分页策略，最后选择最笨的手动翻页——和人类一样。

中间40分钟进入状态。匹配两个数据源时，它主动发现HubSpot的日期格式是MM/DD/YYYY，Salesforce是YYYY-MM-DD，自己写了转换公式。计算CAC时，它注意到有个行业的样本量只有3个，在输出里加了置信度说明。

最后30分钟翻车。PPT模板有公司品牌规范，字体、配色、Logo位置都是固定的。模型生成的内容是对的，但版式完全不对，它尝试了7次调整都没get到"标题必须左对齐且距离顶部2cm"这种非结构化规则。最后Maria接手花了15分钟手工调整。

总耗时87分钟，任务完成度约80%。我们的老分析师做同样任务，熟练的话45分钟，不熟练的新人要2小时且需要问人。

关键发现：模型在"需要理解隐性规则"的环节明显吃力。品牌规范、跨部门协作的默认流程、"这个数据看起来不对"的直觉——这些没有写成文档的东西，是它和人类差距最大的地方。但问题是，我们公司有多少工作真的依赖这些？可能比我想象的少。

我在团队会议上实际说了什么

周四的all-hands，我准备了3页PPT。第一页是OSWorld-V的分数对比，第二页是我们内部测试的结果，第三页是空白，只写了一个问题。

我的原话：

「75%这个数字是真的，72.4%的人类基线也是真的。但这两个数字比较的时候，有一个隐藏变量：人类测试者是"被要求完成任务"，模型是"被设计来完成这类任务"。动机结构不一样，疲劳曲线不一样，对"完成"的定义也可能不一样。」

「我们内部测试72%，比官方人类基线略低。这可能说明我们团队平均水平低于200人样本，也可能说明我的测试设计有偏差。我不确定哪个解释更安慰人。」

「接下来两个季度，我们会做三件事：第一，所有重复性报告任务必须评估自动化可行性；第二，每个人要认领一个"AI做不到"的领域，深度发展；第三，我会和HR谈转岗培训预算，不是裁员预备，是能力升级预备。」

第三句是谎话。预算确实是裁员预备，但我需要团队先动起来。

会后一个入职两年的分析师问我：「Claudio，你觉得三年后我们团队还在吗？」

我说：「我觉得三年后"数据团队"的定义会完全不一样。但具体怎么不一样，诚实讲，我在等比我们更聪明的人给出答案。」

我没说出口的，以及整个行业没聊的

Medium这篇文章的评论区有个高赞回复，来自某个AI公司的产品经理：「72.4%是人类基线，不是人类上限。顶尖分析师能做到90%以上，模型短期内追不上。」

这个安慰剂我咀嚼了很久，最后吐了。因为OSWorld-V的设计者明确说过，测试任务是从真实工作流中采样，不是故意选"简单的"。如果模型已经超过平均人类，而"平均人类"就是劳动力市场的供给主体，那"顶尖人类"的稀缺性能不能支撑整个行业的就业？

另一个我没跟团队提的数字：GPT-5.4的API成本，处理一个OSWorld-V级别任务，约0.17美元。我们的初级分析师时薪换算过来，同样时长的任务成本是23美元。不是23%的差距，是135倍。

成本结构会重塑一切。不是"AI能不能做"，是"AI做坏了再让人修，还是直接让人做"的决策阈值在移动。

我还在想那个空白PPT上的问题。开会时我没让人回答，现在也不想在这里写出标准答案。因为标准答案可能根本不存在，或者存在但说出来太残忍。

只是每次路过那个分析师的工位，看他还在手动调整PPT的2cm边距，我就会想：这个动作，明年还需要人做吗？

GPT-5.4拿下75%人类基准测试，我的团队只拿了72

OSWorld-V是什么，以及为什么75%这个数字很扎心

我的团队真实水平，以及我为什么不敢公开聊

GPT-5.4能做什么，以及它还不能做什么

我在团队会议上实际说了什么

我没说出口的，以及整个行业没聊的

热搜

热门跟贴

OSWorld-V是什么，以及为什么75%这个数字很扎心

我的团队真实水平，以及我为什么不敢公开聊

GPT-5.4能做什么，以及它还不能做什么

我在团队会议上实际说了什么

我没说出口的，以及整个行业没聊的

热搜

热门跟贴

相关推荐

“Claude Code更新废了”！思考深度降67%，无法胜任复杂工程任务

英伟达巧用8B模型秒掉GPT-5 开源了

Claude Code一周份额，一天烧完一半？有人逆向工程发现了7个bug

DeepSeek突然更新：专家模式实测效果惊艳，V4要来了？

从能力到商品：Skills市场正在重塑开发者的生产方式

河南小伙，被中东大佬下300辆战车模型，全村都上了！

GPT-6 曝光了，奥特曼却成了硅谷最焦虑的人

一夜变天:GPT-Image-2流出,昔日王者Nano Banana Pro被拉下神坛？

张雪说要革掉一些不上进的人

OpenAI又一关键高管离职！曾为GPT-4o注入灵魂

智源：ArXiv CLI开源！2亿+开放论文，即将化身科研智能体技能包

2026企业AI大考：别秀PPT，亮出你的「用虾」真功夫

白宫官员：美国停火将于霍尔木兹开放时生效

毛新宇携家人到杨开慧烈士陵园祭扫

“祖先给的特权”，河南网友称祖坟在景区祭祖免票，景区回应：没过检票口，一般是附近住户的祖坟

两国人再软件上疯狂对账，没一个对的上账的！

完球了，GPT-4o之母宣布离职OpenAI

“一盒只加一滴”？北冰洋NFC葡萄汁添加量仅0.005%，公司回应：产品没问题

高血压患者不建议吃这5种早餐，医生总结控制血压的黄金早餐公式

广州外卖骑手去年平均薪酬15万，快递员、货车司机收入下降