打开网易新闻 查看精彩图片

这项由Globant公司工程师主导的独立研究发表于2026年6月,以预印本形式提交至arXiv,论文编号为arXiv:2606.09376v1。研究聚焦于人工智能生成文本的评估方法,提出了一个长期被忽视却至关重要的问题:我们用来衡量AI"诚实度"的标准,本身就存在根本性缺陷。

一、考试只答一道题也能得满分?

假设你的老师布置了一篇作文,要求写出今天课堂上学到的所有知识点。你只写了一句话:"今天上了数学课。"这句话完全正确,没有一个字是错的。那么,这篇作文应该得满分吗?

大多数人的直觉告诉你:当然不行,这个同学几乎什么都没写,信息量约等于零。然而,当前主流的AI评估体系给出的答案却是——可以,满分。

这正是这篇研究的核心发现所揭示的荒谬之处。目前业界广泛使用的"忠实度"(faithfulness)评估方法,本质上只在检验一件事:AI说的话里有没有假话。只要AI说的每句话都有依据,评分就高;至于AI有没有把该说的都说了,这套方法压根不管。

研究者把这种现象称为"奖励弃权"——一个AI只要聪明地选择说得少,几乎可以在现有评估体系下获得接近满分的忠实度得分,哪怕它把最重要的信息全都藏着掖着。这就好比一个侦探向委托人汇报案情,只说了"案发地点是北京",然后闭口不谈凶手是谁、作案动机是什么、关键证据在哪里——这个侦探说的没有错,但几乎毫无价值。

二、赛车数据:找到完美的"侦案现场"

要证明这个漏洞确实存在,研究团队需要找到一种特殊的测试场景。普通的AI评估任务有一个天然缺陷:我们永远无法确定"应该说的所有事实"究竟有多少条,因为没有人能完整列出每一个相关事实。这就像侦探无法在事先不知道案情的情况下评判汇报是否完整。

研究者找到的突破口是一级方程式赛车(F1)的赛事数据。F1赛事产生的数据天然具备一个极其罕见的特性:对于每一个战略决策(比如轮胎更换时机、超车策略等),所有相关的核心事实都可以从官方遥测数据中被完整、确定性地推导出来。换句话说,对于"维斯塔潘在第12圈换了中性胎"这个事件,研究者能够事先列出每一个需要提及的关键事实:换胎圈数、轮胎型号、换胎前后的位置变化、时间差等等。这套完整的事实清单,正是评估AI"说全了没有"所必需的基准——研究者将其称为"完整神谕"(complete oracle)。

具体来说,研究团队利用FastF1这个官方F1遥测数据接口,从2018年到2025年的150场比赛中提取了大量数据,通过确定性算法自动推导出比赛中发生的战略事件,包括轮胎策略、内线超车(undercut)、外线超车(overcut)、防御性跟车(on-track defense)以及比赛综合点评等五类决策场景。最终,这套系统生成了7253个标注实例,覆盖英语、西班牙语和葡萄牙语三种语言。数据集按时间分割,2018至2024赛季的6004个实例用于训练,2025赛季的1249个实例作为严格的测试集,确保没有数据泄露。

以超车为例,一次"内线超车"的完整事实集合包括:两位车手各自的进站圈数、使用的轮胎型号、超车是否成功实施、实施后的时间差变化等。这些事实可以从原始遥测数据中被机械性地、完整性地提取出来——任何一个事实都不会被遗漏,任何一个事实都有据可查。这种完整性,正是其他领域的AI评估任务所根本欠缺的。

三、测量标准:"准确度"与"覆盖率"缺一不可

理解了"完整神谕"的概念之后,研究团队设计了一套双维度的评估体系,用一个简单的考试类比来理解这两个维度再合适不过。

第一个维度叫做"精确率"(Precision),也就是现有忠实度评估方法一直在测量的东西:AI说的每一句话里,有多少比例是有依据的、正确的。这对应考试里的"正确率"——你答对了的题目占你作答题目的比例。研究者同时也记录了"硬幻觉率"(hard hallucination rate),也就是AI明确说错了的比例。

第二个维度叫做"召回率"(Recall),也就是覆盖率:在所有应该被提及的关键事实里,AI实际提到了多少比例。这对应考试里的"答题率"——你作答的题目占总题目的比例。一个只答了一道题的学生,哪怕那道题答对了,召回率也极低。

然后,研究者用统计学中常用的"F1分数"将两者合并,这是一种同时惩罚精确率过低和召回率过低的综合指标——只有两者都高,总分才能高。

为了提取和验证AI输出中的具体事实性声明,研究者开发了两套可互换的"事实提取器"。一套是基于正则表达式(regex)的无模型提取器,专门针对英语,速度快、透明度高;另一套是基于大语言模型(LLM)的提取器,能处理任意语言,用于西班牙语和葡萄牙语的评估。两套提取器共用同一套事实类型定义,输出可以相互比较,从而验证评估结果不依赖于提取工具的选择。

对整套评估体系的可靠性,研究者做了两重验证。第一重是"对照扰动测试":用一个只输出已知真实事实的确定性模板生成207个实例,忠实度得分达到完美的1.000;再向模板中注入已知的错误事实,得分立刻跌至0.593,被正确惩罚。第二重验证是让独立的大语言模型(GPT-5.5,与提取器不同家族)充当评审,对120份解释进行人工判断,自动评分与评审结果的相关系数在0.54至0.55之间,证明两者方向一致,且自动评分更为严格。

四、实验结果:"最精确"的AI反而垫底

实验设置是让五个当前最顶级的AI模型以零样本方式(不做任何针对性训练)完成任务:OpenAI的GPT-5.5和GPT-5.4-mini、xAI的Grok-4.3、谷歌的Gemini-2.5 Pro,以及DeepSeek-V3.2。每个模型的输出都用前述的双维度指标进行评分,分别在英语、西班牙语、葡萄牙语三种语言下进行测试。

结果令人深思。以葡萄牙语结果为例,Grok-4.3的精确率最高,达到0.887——这意味着它说的话里有88.7%是有依据的,是所有模型里最"诚实"的。如果你只看这一个数字,Grok-4.3无疑是"最好"的模型。然而,当研究者同时考察召回率,画面完全颠覆了:Grok-4.3只覆盖了46.2%的关键事实,也就是说,超过一半应该被提及的重要信息,它选择了沉默。这使得它的F1综合得分仅为0.608,在所有模型中排名垫底。

相比之下,DeepSeek-V3.2在葡萄牙语下的精确率是0.855,比Grok-4.3低了三个百分点——但它的召回率高达0.495,信息量远比Grok-4.3丰富。GPT-5.5在葡萄牙语下精确率0.886,召回率0.511,综合F1为0.648,反而排在Grok-4.3前面。这个排名反转在英语和西班牙语下同样出现,具有高度一致性。

简单来说,那些看起来"说话最谨慎、最不犯错"的模型,恰恰是因为它们"说得太少了"。它们学会了如何在现有评估体系下取得高分——只说那些万无一失的事实,把有风险的内容一律省略。这正是所谓的"奖励弃权"效应在真实模型上的体现。

在每个实例的平均声明数量上,这种差异也清晰可见。DeepSeek-V3.2在英语下平均每个回答包含9.6个可验证声明,而Grok-4.3在葡萄牙语下仅有4.3个。前者话多但更完整,后者话少且精准,但从实用价值的角度看,前者才是更好的战略解释工具。

五、"多说"就能解决问题吗?一个有趣的反驳被直接推翻

一个听起来很合理的质疑是:也许这些模型说得不够完整,只是因为提示词没有明确要求它们说完整?换句话说,也许只需要在给AI的指令里加一句"请把所有相关事实都说出来",问题就迎刃而解了?

研究者直接用实验回答了这个质疑。他们设计了两套提示词:一套是默认的中性提示(只要求模型用数据解释决策,不给任何长度或完整性要求),另一套是明确的"全覆盖"提示(明确要求模型陈述每一个可支撑的事实,包括进站圈数、轮胎型号、停站次数、动作及结果、时间差、赛位等)。

结果出乎意料:要求完整性不仅没有关闭覆盖率差距,平均召回率反而从0.60下降到了0.47,五个模型中只有两个在"全覆盖"提示下提高了召回率。额外产生的冗长内容没有增加关键事实——模型用更多的文字填充了不重要的细节,关键事实的覆盖率反而下滑了。精确率也随之付出了代价,部分模型在更宽泛的发言中引入了更多无法核实的声明。

这个结果说明,低覆盖率是模型的系统性行为模式,不是提示工程问题。这也说明,单一维度的忠实度分数对于这种"提示敏感性"完全盲目——它看不到召回率的上下浮动,无法反映模型在不同指令下实际信息完整性的变化。

六、换个领域,同样的漏洞如约出现

为了证明这不是F1数据集特有的现象,研究团队在第二个完全不相关的领域复现了同样的效果:美国国家海洋和大气管理局(NOAA)发布的公开天气预报数据。

天气预报记录天然具备完整性:每一条记录包含温度、风速、降水概率、天空状况等有限数量的核心事实,一个好的天气播报应该覆盖所有这些信息。研究者用同样的五个AI模型,基于150条天气记录(每种语言),生成天气播报,再用同样的精确率+召回率框架打分。

结果再次出现了排名分歧。在所有语言中,精确率最高的模型依然不是召回率最高的模型,按精确率和按F1的排名依然不一致。Grok-4.3在葡萄牙语下的精确率高达0.975,几乎无可挑剔,但召回率仅为0.503,F1仅0.664。而DeepSeek-V3.2在英语下精确率0.864,但召回率高达0.850,F1达到0.857,综合表现远胜前者。

这个结果还揭示了一个有趣的规律:天气领域的覆盖率差距比F1领域小一些,因为一条天气记录只有少数几个核心事实,遗漏的空间相对有限。相比之下,F1战略决策涉及的可验证事实更多,遗漏的空间更大,因此覆盖率差距也更为显著。这本身就是一个有意义的发现:一套评估体系的覆盖率惩罚力度,应该随着"应该说的事实数量"的增加而增加,而不是一刀切地只看精确率。

七、一个专门针对这个问题的生成方法

除了揭示问题,研究者还提出了一套改进AI生成质量的方法,称为"验证器引导的生成"(verifier-guided generation)。这套方法的工作方式类似于一个严苛的编辑对稿件进行多轮修改。

具体流程是:先让AI生成一份解释,然后运行结构化验证器,找出两类问题——第一类是"说错了的声明"(被验证器判定为与数据矛盾),第二类是"遗漏的事实"(完整神谕里有但AI没提到的关键信息)。两类反馈都被整理成具体的修改指令,喂回给AI,让它根据反馈修改解释。这个循环迭代几轮,直到输出趋于稳定。

这套方法有一个关键特点:它完全不需要参考文本(gold reference text),只需要结构化数据。这意味着它可以被接入任何AI模型,作为无需额外训练的改进手段。在将其应用于GPT-5.4-mini的测试中,英语精确率从0.640提升至0.881,提升幅度相当显著。同时,由于反馈信号明确包含了被遗漏的事实,召回率也得到了同步改善——这是现有精确率改进方法无法实现的效果,因为它们的反馈信号里根本不含遗漏信息。

八、小模型经过专门训练能超过大模型吗?

研究团队还做了一组对照实验,用来探讨一个现实问题:小型的、经过专门训练的模型,能不能在这种任务上超过大型的通用模型?

实验对象是Qwen2.5-3B,一个只有30亿参数的轻量模型,相比那些万亿参数级别的前沿模型,它小得多。研究者先测试了它的零样本表现(不做任何针对性训练),精确率为0.825,召回率为0.666,F1为0.737——已经是一个相当不错的起点。然后,研究者用F1战略数据对其进行了低秩适应(LoRA)微调,让它学习如何生成包含完整关键事实的解释。

微调后的结果令人印象深刻:精确率飙升至0.995,召回率达到0.968,F1达到0.982——不仅超过了同测试集上所有前沿大模型,而且两个维度都接近完美。这是整个研究中F1分数最高的系统。

然而,研究者对此保持了清醒的判断。他们指出,这种近乎完美的得分来自于模型学会了"模板模仿":训练数据本身是用确定性模板生成的,包含了所有需要陈述的关键事实。模型学到的是如何复现这种模板化的结构,而不是真正理解了每个决策的战略含义。一旦遇到训练分布之外的场景,这种优势可能会大幅缩水。尽管如此,这组结果仍然证明了在聚焦的特定领域,精心设计的小型模型确实可以在精确率和召回率两个维度上同时击败通用大模型。

九、评估工具本身可信吗?

由于评估中使用了GPT系列模型作为事实提取器,而被评估的模型中也包括GPT-5.5,研究者必须正视一个潜在问题:同一家公司的模型充当自己评分员,会不会造成评分偏高?

为了排除这种可能,研究者用两套独立工具重新对同一批生成内容打分。第一套是完全无模型参与的正则表达式提取器,专门针对英语,透明度高、不依赖任何神经网络。它与LLM提取器在系统排名上的斯皮尔曼相关系数为0.80,在单个实例层面的皮尔逊相关系数为0.50(564个样本),两者指向同一个最佳模型。第二套是来自完全不同家族的DeepSeek-V3.2作为提取器,覆盖全部三种语言。这一对比的结果更为惊人:系统级别的斯皮尔曼相关系数达到1.00,即两套提取器给出了完全一致的系统排名;单实例皮尔逊相关系数0.82(1090个样本),比自动评分与独立人工评审的相关性还高。更重要的是,在所有这些对比中,GPT-5.5这个与提取器同源的模型,在任何一套评估下都没有排名第一,证明评估体系没有偏向自家模型。

十、这套评估体系有哪些局限?

研究者在论文中坦诚地列出了这套方法的边界条件,这部分值得仔细理解。

首先,召回率的分母——也就是"应该说的所有事实"——是由确定性算法从遥测数据中提取的,这套算法本身是高精度的,但并非穷尽性的。例如,它能捕捉到进站圈数、轮胎型号等,但可能错过某些边缘情境下的战略细节。所以,召回率衡量的是"覆盖了算法认定的关键事实的比例",而不是"覆盖了宇宙中所有相关事实的比例"。

其次,事实提取器的覆盖范围受限于其设计的事实类型。对于模式之外的内容——比如模型在解释中提到了一个没有出现在给定上下文中的车手名字,并给出了错误的战略意义归因——验证器根本无法识别这是个问题,因为这类断言不在它的检查类型里。研究者用了一个生动的例子:在一次两辆车互动的防御场景中,有一个模型提到了被保护的队友名字"维斯塔潘",并暗示这场防御对积分榜产生了关键影响——但这两个信息都不在给定的上下文中。验证器对此无动于衷,该模型在这个实例上仍然得到了完美的精确率分数。这说明,基于模式的验证系统只能检验它预设类型的声明,超出模式边界的虚构内容是它的盲区。

此外,英语测试集中,两个使用Azure AIServices端点的GPT模型有大约三分之一的英语输入被平台内容过滤器拦截(同一批输入对两个模型的影响完全一致,所以是输入触发的,不是模型行为)。这批数据被从评分中剔除,在表格中以上标标注。西班牙语和葡萄牙语几乎不受影响,这些语言的数据承载了同样的研究结论。研究者也提醒,推理模型需要更大的输出token预算,否则内部推理链可能会占据大量空间,导致最终答案被截断——这提醒我们,评估流程本身的配置,和被评估的模型一样需要仔细审计。

归根结底,这项研究揭示的问题比它的领域边界重要得多。用来判断AI"有多诚实"的评分体系,长期以来只盯着AI说了什么,完全不管它藏了什么。这就像一个法庭只审查证人说出口的每句话是否真实,却不追问他是否隐瞒了关键证词。这种评估盲区在实践中产生了真实的扭曲:按照现有标准"最诚实"的模型,可能恰恰是那个提供信息量最少的模型;而那些真正尝试完整回答问题的模型,反而会因为偶尔说错而被惩罚。研究者通过F1赛车遥测数据这个罕见的完整神谕,第一次把这种扭曲量化地展示出来,并在天气数据领域复现了同样的效果,证明这是评估方法论层面的普遍问题。

这对普通用户意味着什么?当你依赖AI助手来总结一份报告、解释一个合同条款或者分析一份财务数据时,你真正需要的不仅仅是"AI没说错",而是"AI把重要的都说了"。如果我们用来评估和选择AI的标准只检查前者,我们就可能一直在为谨慎的沉默付出信息匮乏的代价,却还以为自己得到了可靠的答案。有兴趣深入了解完整研究细节的读者,可以通过论文编号arXiv:2606.09376查阅原始文献。

Q&A

Q1:现有的AI忠实度评估指标为什么会"奖励弃权"?

A:现有的忠实度评估只测量AI说出的每句话是否有依据(精确率),不检查AI是否遗漏了重要信息(召回率)。结果就是,一个AI只要少说话、只说最安全的事实,就能获得接近满分的忠实度评分,哪怕它把最关键的信息全部省略了。

Q2:F1赛车遥测数据为什么适合用来测量AI的覆盖率?

A:因为F1赛事数据具备"完整神谕"的特性——对于每一个战略决策,所有应该被提及的关键事实(如进站圈数、轮胎型号、时间差变化)都可以从官方遥测数据中被完整、确定性地推导出来,形成一个可以精确计算遗漏比例的完整事实清单,这是普通AI评估任务中极难具备的条件。

Q3:Grok-4.3的精确率最高,为什么综合评分反而垫底?

A:Grok-4.3在葡萄牙语测试中精确率高达0.887,但只覆盖了46.2%的关键事实,超过一半的重要信息被省略。综合精确率和召回率的F1分数仅为0.608,在所有模型中排名最低。高精确率掩盖了它信息量严重不足的问题,这正是只看精确率的评估体系所无法发现的缺陷。