神庙大学：AI回答问题时，"第一个字"就已经暴露了它是否在胡说|实验|新论文|神庙|置信度|莎士比亚

这项由美国天普大学计算机与信息科学系完成的研究，以预印本形式于2026年5月发表，论文编号为arXiv:2605.05166，有兴趣深入了解的读者可通过该编号查询完整原文。

当你向一个朋友问路，他如果真的知道怎么走，往往会毫不犹豫地开口说"直走然后左转"。但如果他其实不确定，他会先停顿一下，犹豫地说"呃……好像是……往那边？"——那个开口之前的停顿，那个第一个字吐出来时的迟疑，往往比他最终给出的答案本身更能告诉你他到底知不知道。

这篇研究的核心思路，正是这么简单：当大型语言模型（也就是我们常说的AI聊天机器人）回答一个问题时，它在生成答案的第一个词的时候，究竟是胸有成竹还是患得患失？这个瞬间的"犹豫程度"，能不能直接告诉我们它接下来说的话是真知灼见还是一本正经的胡说八道？

研究团队给这个"犹豫程度"起了一个正式的名字，叫做"第一个词的置信度"，用希腊字母φ（phi）加下标"first"来表示，简称φfirst。他们发现，这个单一的、从AI回答第一个词时就能读取的数字，在判断AI是否在"幻觉"（也就是胡编乱造）这件事上，表现得比那些需要让AI把同一个问题回答十遍再做比较的复杂方法，还要略胜一筹——而且计算成本只有后者的十一分之一。

这个发现，可能会改变未来所有检测AI是否在撒谎的工具的设计思路。

一、AI为什么会"一本正经地胡说八道"

要理解这项研究解决的问题，需要先聊聊AI"幻觉"这件事。现代的大型语言模型，比如你可能用过的各种AI助手，在回答问题时并不是真的去"查资料"——它们更像是一个读过海量书籍的人，凭记忆回答你的问题。这种方式的问题在于，当它们"记不太清楚"的时候，它们不会说"我不知道"，而是会非常流畅地编出一个听起来很合理但实际上是错误的答案。研究者把这种现象叫做"幻觉"。

幻觉的危险性在于它的流畅性。AI说错话的时候，往往和说对话的时候语气一样自信，一样有条有理，让人很难从表面判断真假。这就催生了一个重要的研究方向：怎么判断AI说的话到底靠不靠谱？

目前最主流的一种方法叫做"自我一致性检测"。原理很直接：把同一个问题问AI很多遍，看它每次给的答案是不是一致的。如果AI每次都说"莎士比亚写了哈姆雷特"，那大概率是对的；如果它有时说莎士比亚，有时说别人，那就说明它自己也不确定。这个方法有一定效果，但有个显而易见的问题——同一个问题要问十遍，成本太高了。

后来研究者又升级了这个方法，叫"语义自我一致性"。这个升级版不只是看AI每次给的答案字面上是否一样，而是用另一个专门的AI模型来判断这些答案的意思是否相同。比如"威廉·莎士比亚"和"莎翁"意思相同，但字面不同，升级版方法能识别出它们其实是同一个答案。这个方法更精准，但代价更大——要跑十次AI生成，还要再跑一遍专门的语义判断模型。

天普大学的这支研究团队想到了一个更根本的问题：我们真的需要问这么多遍吗？AI在第一次回答的第一个词的时候，是不是就已经把它的"底"给露出来了？

二、侦探如何在嫌疑人开口的瞬间判断真假

研究团队的核心思路，可以用一个"侦探审讯"的场景来理解。经验丰富的侦探知道，嫌疑人在被问到关键问题时，回答的第一个字往往最能说明问题。如果他张嘴就来，干脆利落，说明他心里有数，这个说法经过了充分"预演"。如果他开口前有个明显的迟疑，嘴里发出"呃……"或者"这个……"，说明他的大脑正在临时处理这个问题，答案的可靠性就要打一个问号。

大型语言模型在生成文字的时候，有一个同样的"犹豫时刻"。模型在生成每一个词之前，实际上会在内部对词汇表里所有可能的词都打一个分数，分数高的词更可能被选中输出。这些分数经过处理后，可以看作是模型认为每个词作为下一个词的"概率"。

当模型被问到"哈姆雷特是谁写的"时，如果它脑子里非常确定，那么"莎士比亚"这个词或者它的第一个字符，会占据绝大多数的概率权重，其他所有词的概率几乎可以忽略不计。但如果模型不太确定，那么这个概率会被分散到好几个不同的候选词上——"莎士比亚"、"马洛"、"培根"……都可能有相当的概率，模型只是碰巧选了其中最高的那个输出。

φfirst这个指标，衡量的正是这种概率分散程度的反面——也就是概率集中程度。研究团队取AI在生成答案第一个有实际内容的词时，概率最高的前100个候选词，重新归一化它们的概率，然后用一种叫"熵"的数学工具来衡量这些概率有多分散。熵越高，说明概率越分散，模型越犹豫；熵越低，说明概率越集中，模型越确定。最终的φfirst是用1减去归一化后的熵，所以φfirst越高代表模型越有把握，越低代表模型越迷茫。

这个计算只需要AI跑一遍就能完成，不需要任何额外的模型，也不需要重复提问。

三、考场上的实验设计

为了检验这个思路是否真的管用，研究团队设计了一套相当严格的实验。他们选择了三个主流的开源AI模型，分别是Llama-3.1-8B、Mistral-7B-v0.3和Qwen2.5-7B，都是目前研究界常用的中等规模指令调优模型，参数量在70亿到80亿之间。如果你不熟悉这些名字，可以把它们理解为三个来自不同厂商、能力相近的AI助手，就像不同品牌但配置相当的智能手机。

测试的题目来自两个标准的知识问答数据集。第一个叫PopQA，考的是关于各种事物的事实性问题，比如名人、地理、历史等，这类问题的答案通常很短，一两个词就够了；第二个叫TriviaQA，考的是各类知识竞赛风格的问题，答案稍微复杂一些，涉及更多领域。每个数据集各抽取1000道题，三个模型都在同样的1000道题上作答，这样才能做公平的比较。

判卷的工作交给了另一个更大的AI模型（Qwen2.5-14B-Instruct的压缩版），它会综合考虑问题、AI给出的答案，以及标准答案的所有可接受形式，来判断AI答对没有。这相当于请了一个懂规矩的阅卷老师，而不是只靠死板的字符串匹配。

与φfirst对比的方法一共有五种，按照成本从低到高排列。最简单的是"口头置信度"，直接让AI说出自己对答案有多大把握，给一个0到100的分数；接下来是三种不同精度的表面形式一致性检测，分别是完整答案匹配、前三个词匹配和只看第一个词匹配，这三种都需要把同一个问题重复问10遍然后统计答案一致率；最后是语义自我一致性，同样需要重复问10遍，但用DeBERTa这个专门的语义理解模型来判断答案含义是否相同，然后统计意义一致的比例。

评价所有方法的标准，是一个叫AUROC的数字，你可以把它理解为"这个方法有多善于把真正答对的情况和答错的情况区分开来"。AUROC等于0.5意味着完全随机，跟抛硬币没区别；等于1.0意味着完美区分。一般来说，超过0.8就算是不错的表现了。

四、"第一个词"的惊人战绩

实验结果相当令人印象深刻。从整体平均成绩来看，φfirst获得了0.820的AUROC，而最贵的对手——语义自我一致性只拿到了0.793，完整答案匹配的表面形式一致性是0.791，前三个词匹配是0.782，只看第一个词的匹配是0.752，直接让AI自报把握度的口头置信度最惨，只有0.700。

口头置信度垫底这件事本身就值得多说两句。让AI直接说"我对这个答案有多少把握"，听起来最直接，但实际上效果最差。这和以前很多研究的发现一致——AI在被要求直接评估自己的把握度时，往往并不可靠，它可能对错误答案充满信心，也可能对正确答案过于谦虚。这说明AI并不擅长进行这种元认知——也就是"对自己的认知进行认知"这件事。

更细致地拆分来看，φfirst在六个"数据集-模型"组合（两个数据集乘以三个模型）里，有五个组合都取得了最高分，剩下那一个组合也只比最强对手低了0.002分，差距小到可以忽略不计。

在PopQA数据集上，φfirst的优势更为明显，三个模型的平均AUROC达到了0.875，而语义自我一致性只有0.839，差距超过了0.036。在TriviaQA数据集上，φfirst仍然领先，但差距缩小到了0.016。研究团队对此有一个合理的解释：TriviaQA的答案往往更长、字面形式更多变，这给了重复采样的方法更多"施展空间"——不同的回答表述方式里，仍然携带了有用的一致性信息。而PopQA的答案短，重复采样能提供的额外信息就更有限。这个细微的差异，后来也被研究团队老老实实地列为局限性。

五、胜利是否站得住脚——统计检验的证明

单看AUROC数字还不够，因为这些数字是在特定的1000道题上算出来的，万一只是碰巧好呢？研究团队为此做了一种叫"配对自助检验"的统计测试，通俗来说就是：把这1000道题反复随机抽样重组，看在这些随机重组的版本里，φfirst依然比对手好的比例有多高。如果这个比例超过95%，就认为差距是真实稳健的，而不是偶然。

结果显示，φfirst对比完整答案匹配的表面形式一致性，在六个组合里有四个通过了这个检验；对比语义自我一致性，有三个组合通过了检验。那些没通过的组合，差距在统计上不显著，意味着在这些情况下两者实力相当，而不是φfirst明显落后。对比最简单的只看第一个词匹配的方法，φfirst在全部六个组合都通过了检验，赢得干脆利落。

研究团队对此的表述非常诚实：对于语义自我一致性，φfirst在部分情况下是"略胜"，在其他情况下是"打平"，而不是全面碾压。这个客观的描述，让这项研究的结论显得更加可信。

六、两者说的是同一件事吗？

φfirst和语义自我一致性成绩接近，这本身就引出了一个有趣的问题：它们是不是在衡量同一种东西？换句话说，φfirst有没有已经把语义自我一致性的信息都"包含"进去了？

研究团队为此专门做了一个"信息包含性测试"。他们先看两个指标之间的皮尔逊相关系数——这个数字越接近1，说明两者走势越一致，类似于两个体温计测量同一个人的体温，结果必然高度吻合。计算结果显示，六个组合里这个相关系数在0.54到0.76之间，均值为0.67。也就是说，两者中等偏高度相关，走势大体一致，但并非完全重叠。

更关键的测试是：如果把φfirst和语义自我一致性两个指标合并在一起用（通过一个简单的逻辑回归模型把两者结合成一个综合判断），比只用φfirst能提升多少？如果语义自我一致性提供了大量φfirst没有的信息，那合并之后应该有显著提升；如果两者说的基本是同一件事，那合并之后几乎不会有提升。

实验结果是：合并两者之后，AUROC平均只提升了0.021，在六个组合里有五个提升幅度不超过0.025。这个提升微乎其微，说明φfirst已经捕获了语义自我一致性绝大部分的判断能力。多花十倍的计算成本去跑语义自我一致性，带来的额外收益极为有限。

七、"答案越长越不自信"——这是真的吗？

研究团队还仔细检验了一个潜在的干扰因素：答案长度。有一种担忧是，φfirst可能只是在间接衡量答案的长短——比如，答对的短答案往往第一个词就很确定，而答错的长答案往往第一个词就更犹豫。如果是这样，φfirst的有效性可能只是一种"身高歧视"，而不是真正在判断模型的认知状态。

为了检验这个担忧，研究团队做了两步分析。第一步，直接算φfirst和答案长度之间的相关性，结果在0.11到0.25之间，方向是负的（越长越低置信度）。这个相关性本身不算强，只能解释最多6.5%的变化，但确实存在。

第二步，研究团队用了一个统计技巧，叫"偏相关"——简单来说，就是先把"答对还是答错"这个因素的影响从两个变量里都去掉，然后再看剩余的相关性。背后的逻辑是：我们知道答错的模型往往既更犹豫（φfirst低），又倾向于生成更长的答案来掩饰不确定性。如果把这个共同原因去掉，φfirst和答案长度之间还剩多少关联？

在PopQA数据集上，这个残余相关性从-0.13到-0.16缩水到了-0.02到-0.04，几乎消失了。这说明在PopQA上，φfirst和答案长度之间的表面关联，几乎完全是因为两者都跟"答对没答对"相关，一旦控制了这个共同原因，两者就基本独立了。

在TriviaQA数据集上，情况略有不同：Llama和Mistral模型的残余相关性分别是-0.18和-0.17，下降幅度不如PopQA那么彻底。研究团队对此的态度依然诚实——这说明在TriviaQA上，答案长度对φfirst确实有一定的独立影响，虽然不大，但无法完全排除。这也被明确列入了研究的局限性清单。

八、这项研究的边界在哪里

任何研究都有其适用范围，这项研究的团队在这方面非常坦诚。φfirst目前只在英语环境下的封闭式短答案事实问答上经过了验证，所谓"封闭式"，是指模型完全凭自己的记忆来回答，不借助任何外部文档。这种设定下，第一个词往往就决定了答案走向，所以第一个词的信心高度有代表性。

但如果换成需要大段推理的问题，比如"请分析第一次世界大战的主要原因"，答案的第一个词可能只是一个"第"字，完全看不出模型接下来要说什么。或者如果换成需要先检索文档再作答的场景，模型的不确定性来源就不只是记忆，还有检索结果，第一个词的信心可能无法代表全局。

此外，φfirst需要能够访问模型生成每个词时的原始概率分布，这意味着它对那些只提供最终文字输出、不开放内部数据的商业API（比如某些封闭的云端AI服务）是完全不适用的。

研究团队还在初步分析中发现，如果不只看第一个词，而是把整个回答过程中所有词的置信度汇总起来，在TriviaQA上可以获得更好的效果。这个方向被留作未来的研究课题，意味着φfirst可能只是这类单次解码置信度方法的冰山一角。

说到底，这项研究告诉我们一件很有实用价值的事情：在你决定花大价钱、大算力去问AI十遍同样的问题之前，先花点时间看看它第一次回答的第一个词有多自信——这个几乎免费的信号，往往已经足够告诉你它接下来说的话值不值得信任。

研究团队为此建议，未来任何声称能检测AI幻觉的新方法，都应该先把φfirst作为一个廉价的基准线报告出来，只有明显超越了这个简单基准，新方法的额外成本才算物有所值。

这个发现本身有一种令人愉快的简洁感——AI在开口的那一刻，就已经在某种程度上"供认"了它自己是否心中有数。我们需要做的，只是学会读懂那个瞬间。如果你希望深入了解这项研究的所有细节，可以在学术预印本平台通过编号arXiv:2605.05166查阅完整论文。

Q&A

Q1：什么是"AI幻觉"，为什么很难被发现？

A：AI幻觉是指大型语言模型在不知道正确答案的情况下，仍然流畅地编造出一个听起来合理但实际错误的答案。之所以难以发现，是因为AI在说错话时语气和说对话时几乎一样自信，没有明显的犹豫或警示信号，普通用户很难从表面判断真假。

Q2：第一个词置信度检测方法需要额外购买工具或服务吗？