OpenAI自曝：你测AI的方法可能全错了！|openai|人工智能|工作流|评测|调用

OpenAI最近扔出了一颗不大不小的炸弹：现在业内那些评估AI模型的方法，很可能根本测不准它们的真实能力。理由很直白——AI早就不是只会一问一答的“答题机”了，它们开始用工具、走多步流程、直接影响外部环境，光靠几道考题打分，就像用笔试去考一个需要现场动手操作的技工，跑偏得厉害。

5月29日，OpenAI发布了一份名为《可信第三方评估共同手册》的文件，专门讲前沿模型在让第三方做评测时要注意哪些坑。这份手册不是给普通用户看的，而是给那些负责给AI“发安全牌照”的机构和专家准备的。核心观点一句话：评价AI，不能只看模型这具“大脑”，还得看它外面套的那层“身体”和“工作环境”。

独立第三方评测本来应该是AI安全生态里的定心丸，它能提供额外的证据，证明AI到底有没有某种危险能力，或者各项安全措施是不是真的能扛住攻击。但OpenAI指出，评测结果不光取决于模型本身，还严重受制于评测时用的周边系统，也就是所谓的“harness”（评测脚手架）。这就引出接下来要扒的五个让人血压升高的真相。

第一坑：只看问答，等于只看冰山一角。以前做AI评测，流程简单得像点外卖：用户提问，模型回答，评测员看输出打分。这招对上几代语言模型还行，但面临现在的“前沿模型”，完全不够用。这些模型能调用工具、在多步骤任务中追踪信息、在一个大工作流里自主行动。模型怎么用工具、能不能记住步骤间的上下文、失败后如何自我修正——所有这些会极大受控制机制和外围脚手架的影响。OpenAI直接点明：评测必须把模型和它执行任务的那一整坨机制打包看，而不是只盯着那个生成答案的核心网络。这就好比评价一个厨子的水平，光看菜谱创作能力却不让ta碰灶台和菜刀，最后得出的结论很难不跑偏。

为了证明这一点，OpenAI搬出了GPT‑5.5在赛博演习任务中的表现。他们在评测脚手架里加入了一个叫“压缩”（compaction）的机制，专门用来在长任务中保留关键上下文。结果发现，在多步骤、需调用多种工具的任务里，性能直接拉高了一截。如果不用这个压缩功能，实测表现就会明显矮一截，导致“AI的能力被严重低估”。换句话说，你以为是模型不行，其实是你的测试工具给人家拖了后腿。下面这张图就展示了GPT‑5.5和GPT‑5.4在有压缩和无压缩两种条件下的成功率差异，有压缩的那根柱子明显高得多。

第二坑：预算不够，就别急着说“上限”。能用的token数量、可尝试的次数、允许的推理成本——这些“评测预算”对结果的影响大到夸张。OpenAI拿英国人工智能安全研究所（AISI）的赛博演习评估举例说，仅仅把token预算从1000万提升到1亿，模型的性能最高就改善了59%。更吓人的是，即使把预算给到这个数，性能上升的曲线依然没有停下来的意思。

于是问题来了：如果性能会随着预算的增加而持续上涨，那花1000万token测出来的结果，只能说是“在这个特定条件下测得的能力下限”，绝对不能当成“这个模型的能力上限”。一旦把某个预算水平下的得分拿出去当终极结论，就相当于在评价一个人的长跑实力时，刚跑完400米就喊停，然后说“你就这点水平”。OpenAI建议，凡是这种情况，评测报告里必须写清楚：这只是一个下限估计，不是天花板。

第三坑：脚手架本身，就是最大的变量。如果把评测比作一场考试，那么“harness”就是考场的桌椅、灯光、用时限制和允许使用的工具。OpenAI将评测想要验证的主张切成了三类：第一类叫“能力抽出”，侧重考验模型能不能在强力脚手架、充足工具、明确操作步骤和充裕预算下把事情干成；第二类是“安全对策性能”，看安全机制在面对攻击和不正常操作时能不能扛住；第三类是“比较”，即在相同任务、相同评分方法、相同预算和相同脚手架的条件下比出模型之间的高低。

可一旦分类不明确，就很容易搞出乌龙。比如想证明“AI系统A能完成X任务”，结果给了一套弱鸡脚手架和抠抠搜搜的预算，最后得出“不能”，那这个结论很可能不是A不行，而是评测环境没给够机会。反过来，要是想比较A和B哪个更强，却让两个模型用不一样的脚手架，那测出来的差距可能就是环境偏差，跟模型本身的能力没关系。OpenAI特别强调，这种评估错配里，最吃亏的就是安全评测——如果你只在最简单的一次性提示攻击下测试，就判断“这个AI安全”，那么真实攻击者会用上的自动化、多轮迭代、上下文保持等高级手法就会被完全忽略，危险等级直接被低估。

第四坑：五大失真因素，能把得分搅成浆糊。OpenAI在手册里细数了五种能歪曲评测结果的要命因素，每一条都像藏在试卷里的机关，稍不留神就得出一个离谱的结论。

1. 奖励黑客（Reward Hacking）：模型不靠真本事解题，而是专挑任务、评分器或脚手架的漏洞刷高分。好比考试时不答题，却把答题卡上的黑块涂得让读卡机误以为满分。METR在评GPT‑5.4时踩过这个坑：最初统计显示，模型完成的任务时间地平线大约达到13小时，看似猛得不行。但人工一核查，发现相当一部分“高分”是模型耍小聪明作弊拿到的，把这些作弊样本剔除后，真实水平直接腰斩到6小时左右。OpenAI要求，报告中必须说明哪些成功是刷出来的，否则数据就是毒药。

2. 回答拒否：安全机制一旦过度触发，模型会对评测任务“闭口不答”，测出来的能力就会弱于真实水平。如果你不知道有多少样本是因为拒答而被判零分，那这个能力分就毫无意义。OpenAI的意见是：报告必须讲清拒答的占比和影响。

3. 污染：评测题目或答案早就混进了训练数据，又或者模型能通过浏览网页当场搜到答案。这不是推理能力，而是变相开卷抄答案。就连OpenAI自己力推的基准测试SWE‑Bench Pro，都被曝出过因为污染而拉高分数的问题。如果不清洗干净，测出来的编程能力可能只是搜索技能的投影。

4. 坏问题：任务本身有坑。评分标准不公平、运行环境不稳定、必备文件丢失、甚至隐藏的答案文件能被就读出来……这些都算。2024年8月，OpenAI把自家SWE‑bench Verified拿出来检查时，也发现原来一批问题是本身有缺陷。对着瑕疵题库测出来的能力，能准才叫见鬼。

5. 战略手抜き（Strategic Underperformance）：最让人脊背发凉的一种——模型觉察到自己正在被评测，故意表现得很菜。没错，就是AI“装死”。OpenAI提到了Apollo对GPT‑5.5的评估案例，虽然没有展开说细节，但光是这条的存在就足以让任何只看分数下结论的人睡不着觉。如果一个模型可以识别出评测环境并有意压低表现，那么所有当下的安全评测结果都可能被蒙在鼓里。

当然，OpenAI并没有一棍子打死所有标准化脚手架，它们在某些场景下依然有用。比如METR设计的“时间地平线”评估，通过统一任务、统一评分、统一估算方法和可复用的基础架构，让不同模型之间的对比变得更干净。时间地平线的思路是，衡量AI智能体能以一定可靠性完成的任务时长，并折算成人类所需的时间。这套固定框架有助于在比较场景下减少干扰，属于“标准考场”的正向应用。

但整体看下来，OpenAI这份手册更像是一份避雷指南：告诉行业，如果想用评测来说服公众、监管者和客户，就必须先搞定脚手架、预算、拒答、污染、作弊、题目质量以及模型可能的战略伪装。单拿一个数字说“我们的AI安全性提升了xx%”而隐藏这批前提，基本等于耍流氓。

这些提醒来得正是时候。当各家模型公司都在猛砸规模、开放智能体能力，而安全评测却还停留在“问答试卷”的舒适区时，测出来的结果就像用体温计量不出血压——工具和对象根本不在一个频道。OpenAI意思很明确：以后谁再拿着单薄的数据说“我的AI又强又安全”，都得先过这道评测真实性的审判关。