75%对72.4%。这组数字在上周二的数据复盘会上被丢进Slack时,整个频道安静了四分钟。不是那种"大家在忙没看消息"的安静,是那种"所有人都盯着屏幕,手指悬在键盘上不知道打什么"的安静。
说话的是我的高级分析师Maria。她平时发消息带表情包,这次只甩了一个链接和那句"Have you seen what GPT-5.4 scored on OSWorld-V?"
我回了句"晚点聊",然后关掉通知,继续讲Q1的归因模型。但说实话,那48小时我一直在想:该怎么跟团队开口。
OSWorld-V是什么,以及为什么75%这个数字很扎心
先解释这个 benchmark。OSWorld-V 不是那种"解数学题"或者"写代码"的测试,它模拟的是真实的桌面办公场景:打开Excel拉数据、跨应用复制粘贴、整理文件夹、生成报告、处理邮件附件。简单说,就是你我每天早上坐到电脑前干的那些杂活。
人类基线72.4%,来自对200名知识工作者的实测。这些人有3-8年工作经验,分布在咨询、金融、运营等岗位。测试环境完全开放,允许Google搜索、允许试错、允许"哎呀这个快捷键我忘了"的真实状态。
GPT-5.4的75%,是在相同条件下跑的。模型自己操作虚拟桌面,自己决定点哪里、输入什么、什么时候保存。没人给它写脚本,没人告诉它"第3步要按Ctrl+Shift+V"。
Maria后来私下问我:这算"超过人类"吗?
我当时的回答是:算,也不算。75%对72.4%在统计上确实显著,但OSWorld-V的测试时长只有90分钟。真实工作不是90分钟的闭卷考试,是8小时里不断被打断、重新进入心流、再被打断的马拉松。模型现在还不能处理"老板突然插进来的紧急任务"或者"同事在Slack上@你问一个蠢问题"这种上下文切换。
但我说完这段话,自己也没底气。因为2024年GPT-4在同样测试里只有12%,2025年中某个版本跳到34%,现在75%。这个斜率让我失眠。
我的团队真实水平,以及我为什么不敢公开聊
我们的数据团队12人,平均工龄4年。我让他们匿名做了OSWorld-V的简化版——去掉一些需要企业内网权限的任务,保留核心流程。平均分72%,中位数71%,最高81%来自一个工作6年的老分析师。
也就是说,我们团队的中位数比GPT-5.4低4个百分点。最高分比模型高6个百分点,但那是全组经验最丰富的人,而模型是批量生产的。
我在周会上没提这个内部测试。只说了官方数字,然后补了一句:"大家注意,benchmark是benchmark,实际业务场景复杂得多。"
这句话是事实,但也是逃避。我没说的是:我们正在评估的3个自动化项目,原本计划招2个初级分析师,现在预算被冻结了。我没说的是,CTO上周问我"数据团队明年能不能缩编30%"。
最讽刺的是,我自己就是那个推动用AI做数据清洗的人。2024年我们上了自动化pipeline,3个ETL工程师转岗去做分析。当时我觉得这是"升级",现在看可能是"预演"。
GPT-5.4能做什么,以及它还不能做什么
为了验证边界,我让Maria设计了一个真实任务:从Salesforce导出Q1客户数据,匹配HubSpot的营销互动记录,按行业分组计算CAC(客户获取成本),输出PPT格式的摘要。
她给模型的是完全开放的虚拟机,安装了和我们一样的软件栈,但没有任何预配置。
GPT-5.4的表现分三个阶段:
前20分钟,它像刚入职的实习生。Salesforce的界面改版了,它找了3分钟才定位到导出按钮。HubSpot的API调用次数限制让它卡住,它尝试了4种不同的分页策略,最后选择最笨的手动翻页——和人类一样。
中间40分钟进入状态。匹配两个数据源时,它主动发现HubSpot的日期格式是MM/DD/YYYY,Salesforce是YYYY-MM-DD,自己写了转换公式。计算CAC时,它注意到有个行业的样本量只有3个,在输出里加了置信度说明。
最后30分钟翻车。PPT模板有公司品牌规范,字体、配色、Logo位置都是固定的。模型生成的内容是对的,但版式完全不对,它尝试了7次调整都没get到"标题必须左对齐且距离顶部2cm"这种非结构化规则。最后Maria接手花了15分钟手工调整。
总耗时87分钟,任务完成度约80%。我们的老分析师做同样任务,熟练的话45分钟,不熟练的新人要2小时且需要问人。
关键发现:模型在"需要理解隐性规则"的环节明显吃力。品牌规范、跨部门协作的默认流程、"这个数据看起来不对"的直觉——这些没有写成文档的东西,是它和人类差距最大的地方。但问题是,我们公司有多少工作真的依赖这些?可能比我想象的少。
我在团队会议上实际说了什么
周四的all-hands,我准备了3页PPT。第一页是OSWorld-V的分数对比,第二页是我们内部测试的结果,第三页是空白,只写了一个问题。
我的原话:
「75%这个数字是真的,72.4%的人类基线也是真的。但这两个数字比较的时候,有一个隐藏变量:人类测试者是"被要求完成任务",模型是"被设计来完成这类任务"。动机结构不一样,疲劳曲线不一样,对"完成"的定义也可能不一样。」
「我们内部测试72%,比官方人类基线略低。这可能说明我们团队平均水平低于200人样本,也可能说明我的测试设计有偏差。我不确定哪个解释更安慰人。」
「接下来两个季度,我们会做三件事:第一,所有重复性报告任务必须评估自动化可行性;第二,每个人要认领一个"AI做不到"的领域,深度发展;第三,我会和HR谈转岗培训预算,不是裁员预备,是能力升级预备。」
第三句是谎话。预算确实是裁员预备,但我需要团队先动起来。
会后一个入职两年的分析师问我:「Claudio,你觉得三年后我们团队还在吗?」
我说:「我觉得三年后"数据团队"的定义会完全不一样。但具体怎么不一样,诚实讲,我在等比我们更聪明的人给出答案。」
我没说出口的,以及整个行业没聊的
Medium这篇文章的评论区有个高赞回复,来自某个AI公司的产品经理:「72.4%是人类基线,不是人类上限。顶尖分析师能做到90%以上,模型短期内追不上。」
这个安慰剂我咀嚼了很久,最后吐了。因为OSWorld-V的设计者明确说过,测试任务是从真实工作流中采样,不是故意选"简单的"。如果模型已经超过平均人类,而"平均人类"就是劳动力市场的供给主体,那"顶尖人类"的稀缺性能不能支撑整个行业的就业?
另一个我没跟团队提的数字:GPT-5.4的API成本,处理一个OSWorld-V级别任务,约0.17美元。我们的初级分析师时薪换算过来,同样时长的任务成本是23美元。不是23%的差距,是135倍。
成本结构会重塑一切。不是"AI能不能做",是"AI做坏了再让人修,还是直接让人做"的决策阈值在移动。
我还在想那个空白PPT上的问题。开会时我没让人回答,现在也不想在这里写出标准答案。因为标准答案可能根本不存在,或者存在但说出来太残忍。
只是每次路过那个分析师的工位,看他还在手动调整PPT的2cm边距,我就会想:这个动作,明年还需要人做吗?
热门跟贴