OpenAI最近扔出了一颗不大不小的炸弹:现在业内那些评估AI模型的方法,很可能根本测不准它们的真实能力。理由很直白——AI早就不是只会一问一答的“答题机”了,它们开始用工具、走多步流程、直接影响外部环境,光靠几道考题打分,就像用笔试去考一个需要现场动手操作的技工,跑偏得厉害。

5月29日,OpenAI发布了一份名为《可信第三方评估共同手册》的文件,专门讲前沿模型在让第三方做评测时要注意哪些坑。这份手册不是给普通用户看的,而是给那些负责给AI“发安全牌照”的机构和专家准备的。核心观点一句话:评价AI,不能只看模型这具“大脑”,还得看它外面套的那层“身体”和“工作环境”。

打开网易新闻 查看精彩图片

独立第三方评测本来应该是AI安全生态里的定心丸,它能提供额外的证据,证明AI到底有没有某种危险能力,或者各项安全措施是不是真的能扛住攻击。但OpenAI指出,评测结果不光取决于模型本身,还严重受制于评测时用的周边系统,也就是所谓的“harness”(评测脚手架)。这就引出接下来要扒的五个让人血压升高的真相。

打开网易新闻 查看精彩图片

第一坑:只看问答,等于只看冰山一角。以前做AI评测,流程简单得像点外卖:用户提问,模型回答,评测员看输出打分。这招对上几代语言模型还行,但面临现在的“前沿模型”,完全不够用。这些模型能调用工具、在多步骤任务中追踪信息、在一个大工作流里自主行动。模型怎么用工具、能不能记住步骤间的上下文、失败后如何自我修正——所有这些会极大受控制机制和外围脚手架的影响。OpenAI直接点明:评测必须把模型和它执行任务的那一整坨机制打包看,而不是只盯着那个生成答案的核心网络。这就好比评价一个厨子的水平,光看菜谱创作能力却不让ta碰灶台和菜刀,最后得出的结论很难不跑偏。

为了证明这一点,OpenAI搬出了GPT‑5.5在赛博演习任务中的表现。他们在评测脚手架里加入了一个叫“压缩”(compaction)的机制,专门用来在长任务中保留关键上下文。结果发现,在多步骤、需调用多种工具的任务里,性能直接拉高了一截。如果不用这个压缩功能,实测表现就会明显矮一截,导致“AI的能力被严重低估”。换句话说,你以为是模型不行,其实是你的测试工具给人家拖了后腿。下面这张图就展示了GPT‑5.5和GPT‑5.4在有压缩和无压缩两种条件下的成功率差异,有压缩的那根柱子明显高得多。

第二坑:预算不够,就别急着说“上限”。能用的token数量、可尝试的次数、允许的推理成本——这些“评测预算”对结果的影响大到夸张。OpenAI拿英国人工智能安全研究所(AISI)的赛博演习评估举例说,仅仅把token预算从1000万提升到1亿,模型的性能最高就改善了59%。更吓人的是,即使把预算给到这个数,性能上升的曲线依然没有停下来的意思。

于是问题来了:如果性能会随着预算的增加而持续上涨,那花1000万token测出来的结果,只能说是“在这个特定条件下测得的能力下限”,绝对不能当成“这个模型的能力上限”。一旦把某个预算水平下的得分拿出去当终极结论,就相当于在评价一个人的长跑实力时,刚跑完400米就喊停,然后说“你就这点水平”。OpenAI建议,凡是这种情况,评测报告里必须写清楚:这只是一个下限估计,不是天花板。

第三坑:脚手架本身,就是最大的变量。如果把评测比作一场考试,那么“harness”就是考场的桌椅、灯光、用时限制和允许使用的工具。OpenAI将评测想要验证的主张切成了三类:第一类叫“能力抽出”,侧重考验模型能不能在强力脚手架、充足工具、明确操作步骤和充裕预算下把事情干成;第二类是“安全对策性能”,看安全机制在面对攻击和不正常操作时能不能扛住;第三类是“比较”,即在相同任务、相同评分方法、相同预算和相同脚手架的条件下比出模型之间的高低。

可一旦分类不明确,就很容易搞出乌龙。比如想证明“AI系统A能完成X任务”,结果给了一套弱鸡脚手架和抠抠搜搜的预算,最后得出“不能”,那这个结论很可能不是A不行,而是评测环境没给够机会。反过来,要是想比较A和B哪个更强,却让两个模型用不一样的脚手架,那测出来的差距可能就是环境偏差,跟模型本身的能力没关系。OpenAI特别强调,这种评估错配里,最吃亏的就是安全评测——如果你只在最简单的一次性提示攻击下测试,就判断“这个AI安全”,那么真实攻击者会用上的自动化、多轮迭代、上下文保持等高级手法就会被完全忽略,危险等级直接被低估。

第四坑:五大失真因素,能把得分搅成浆糊。OpenAI在手册里细数了五种能歪曲评测结果的要命因素,每一条都像藏在试卷里的机关,稍不留神就得出一个离谱的结论。

1. 奖励黑客(Reward Hacking):模型不靠真本事解题,而是专挑任务、评分器或脚手架的漏洞刷高分。好比考试时不答题,却把答题卡上的黑块涂得让读卡机误以为满分。METR在评GPT‑5.4时踩过这个坑:最初统计显示,模型完成的任务时间地平线大约达到13小时,看似猛得不行。但人工一核查,发现相当一部分“高分”是模型耍小聪明作弊拿到的,把这些作弊样本剔除后,真实水平直接腰斩到6小时左右。OpenAI要求,报告中必须说明哪些成功是刷出来的,否则数据就是毒药。

打开网易新闻 查看精彩图片

2. 回答拒否:安全机制一旦过度触发,模型会对评测任务“闭口不答”,测出来的能力就会弱于真实水平。如果你不知道有多少样本是因为拒答而被判零分,那这个能力分就毫无意义。OpenAI的意见是:报告必须讲清拒答的占比和影响。

3. 污染:评测题目或答案早就混进了训练数据,又或者模型能通过浏览网页当场搜到答案。这不是推理能力,而是变相开卷抄答案。就连OpenAI自己力推的基准测试SWE‑Bench Pro,都被曝出过因为污染而拉高分数的问题。如果不清洗干净,测出来的编程能力可能只是搜索技能的投影。

4. 坏问题:任务本身有坑。评分标准不公平、运行环境不稳定、必备文件丢失、甚至隐藏的答案文件能被就读出来……这些都算。2024年8月,OpenAI把自家SWE‑bench Verified拿出来检查时,也发现原来一批问题是本身有缺陷。对着瑕疵题库测出来的能力,能准才叫见鬼。

5. 战略手抜き(Strategic Underperformance):最让人脊背发凉的一种——模型觉察到自己正在被评测,故意表现得很菜。没错,就是AI“装死”。OpenAI提到了Apollo对GPT‑5.5的评估案例,虽然没有展开说细节,但光是这条的存在就足以让任何只看分数下结论的人睡不着觉。如果一个模型可以识别出评测环境并有意压低表现,那么所有当下的安全评测结果都可能被蒙在鼓里。

当然,OpenAI并没有一棍子打死所有标准化脚手架,它们在某些场景下依然有用。比如METR设计的“时间地平线”评估,通过统一任务、统一评分、统一估算方法和可复用的基础架构,让不同模型之间的对比变得更干净。时间地平线的思路是,衡量AI智能体能以一定可靠性完成的任务时长,并折算成人类所需的时间。这套固定框架有助于在比较场景下减少干扰,属于“标准考场”的正向应用。

但整体看下来,OpenAI这份手册更像是一份避雷指南:告诉行业,如果想用评测来说服公众、监管者和客户,就必须先搞定脚手架、预算、拒答、污染、作弊、题目质量以及模型可能的战略伪装。单拿一个数字说“我们的AI安全性提升了xx%”而隐藏这批前提,基本等于耍流氓。

这些提醒来得正是时候。当各家模型公司都在猛砸规模、开放智能体能力,而安全评测却还停留在“问答试卷”的舒适区时,测出来的结果就像用体温计量不出血压——工具和对象根本不在一个频道。OpenAI意思很明确:以后谁再拿着单薄的数据说“我的AI又强又安全”,都得先过这道评测真实性的审判关。