上海科大与北京通用AI研究院联手，让AI在"答题"时学会另辟蹊径|上海科大|北京通用ai研究院|原理|序列|神经网络|蒸馏器

这项由上海科技大学信息科学与技术学院及北京通用人工智能研究院（BIGAI）联合开展的研究，以预印本形式于2026年4月27日发布在arXiv平台，论文编号为arXiv:2604.24927。研究提出了一种名为"探索性采样"（Exploratory Sampling，简称ESamp）的新型解码方法，专门针对大型语言模型在生成多样化答案时陷入"换汤不换药"困境这一核心问题。

当你让一位厨师连续做十道不同的菜，结果他每次都换个摆盘方式、却始终用同一道配方时，你大概会感到失望。当前主流的大型语言模型（也就是ChatGPT这类AI）在被要求给出多个答案时，正面临着类似的困境——它们可以生成看起来措辞各异的回答，但骨子里走的几乎都是同一条解题思路。这个问题在需要大规模"撒网捕鱼"式搜索答案的场景下格外致命：如果你同时让AI生成64个解法，希望其中有一个能押中正确答案，但这64个解法实际上只是同一种思路的64种表达，那多出来的63次尝试几乎是白费功夫。

研究团队把解决这一困境的思路，建立在一个关于人类学习经验的朴素观察之上——人在面对陌生领域时往往更容易出错，而对熟悉的东西则驾轻就熟。ESamp正是借助这个道理，在AI内部悄悄埋下一个"新鲜感探测器"，让AI在生成答案时自动往自己还没走过的思维小路上多走几步。

一、为什么AI生成的多个答案总是"撞衫"

在深入了解ESamp之前，有必要先理解这个问题究竟有多普遍、多棘手。

测试时扩展计算（test-time scaling）是近年来提升AI推理能力的热门策略。它的核心思路非常直观：与其只让AI生成一个答案，不如让它同时生成很多个，再从中挑出最好的那个，就像考试前多做几套模拟题、总有一套能压中真题一样。这套策略确实有效，通过重新排序、自我验证或多数投票等筛选机制，往往能大幅超越只输出单一答案的贪心解码方式。

然而，这种策略的上限，深深依赖于那批候选答案究竟有多"不一样"。如果AI每次生成的答案虽然用词不同、句式各异，但核心逻辑和推理路径都如出一辙——比如遇到数学题都先设同一个未知数、都用同一套代入法——那么你从64个答案里挑一个，和从1个答案里挑一个，差距其实并不大。更糟糕的是，当AI系统性地犯同一类错误时，无论你抽多少个样本，都无法绕过这个盲点。

现有的解决思路大致分两类。一类是结构化搜索，比如"思维树"（Tree of Thoughts）方法，让AI像下棋一样向前搜索多个分支，明确地探索不同路径。这种方法效果不错，但代价高昂——每次生成都需要大量额外计算和等待时间，在实际部署中很不划算。另一类是启发式采样约束，比如调高"温度"参数让输出更随机，或者用Top-p、Min-p等技术限制采样范围。这类方法计算开销小，但它们只是在词语层面引入随机性，就像用骰子决定每句话用哪个同义词，并不能真正改变底层的推理策略。

研究团队认为，真正有效的多样性应该发生在语义层面，也就是模型内部的"想法"层面，而不仅仅是表面的文字变化。这正是ESamp试图解决的核心矛盾。

二、AI的内心世界：藏在深层的"思维地图"

要理解ESamp的工作原理，需要先了解一点关于大型语言模型内部结构的知识，但不用担心，这里只需要掌握一个关键直觉。

大型语言模型本质上是一个由许多层"变换器层"叠加而成的深层神经网络。每一层都会对输入的文字信息进行一次加工和提炼，就像一道菜在流水线上被反复加工，每经过一个工序，就变得更接近最终成品。最浅的第一层刚刚开始处理原始文字，得到的是比较粗糙的初步表征；而经过几十层变换之后，深层的表征已经充分融合了上下文语义，包含了丰富的推理信息，是AI"真正在想什么"的最直接体现。

研究团队把深层表征比作AI大脑里的"语义地图坐标"。如果两个不同的答案对应的深层表征在这张地图上的位置非常接近，那它们在语义上就是相似的，即便文字表达可能有所不同。反过来，如果两个答案的深层表征相距甚远，说明AI真正走上了不同的思维路径。

ESamp的核心目标就是：在生成下一批答案时，让它们落在语义地图上还没被探索过的区域。

三、"新鲜感探测器"是怎么工作的

ESamp的关键创新在于引入了一个叫做"潜在蒸馏器"（Latent Distiller，简称LD）的轻量级辅助模块。

这个蒸馏器的构造非常简单，就是一个两层的小型神经网络（MLP），大约只消耗不到200MB的显存，对于动辄几十GB的主模型来说几乎可以忽略不计。它被赋予的任务是：根据AI处理文字之后第一层输出的"粗糙草稿"，预测经过所有层处理之后最终形成的"精炼成品"。换句话说，蒸馏器试图用浅层信息直接猜出深层结论。

在生成开始之时，蒸馏器的参数是随机初始化的，对任何事情一无所知。随着AI逐词生成答案，蒸馏器会持续接受训练：每生成一个词，它就拿自己的预测结果与AI深层真实输出对比，计算预测误差，然后更新参数向正确方向靠拢。这个过程像是蒸馏器在实时追着AI背后"速记"——AI去过哪些思维区域，蒸馏器就逐渐学会预测那些区域的深层表征。

于是，一个奇妙的现象出现了。当AI再次走入蒸馏器已经"记熟"的思维区域时，蒸馏器的预测误差很小，因为这是它见过的老路；但当AI走进一片陌生的思维领地时，蒸馏器就会预测失准，误差急剧升高。这个预测误差，正是ESamp用来衡量"当前思路是否足够新鲜"的核心信号——误差越大，代表这条路越值得探索。

这个设计直接借鉴了强化学习领域的经典算法RND（随机网络蒸馏），原本用于让游戏AI主动去探索地图上没去过的角落。ESamp把同样的思路搬进了语言生成的过程中，让AI主动探索自己思维空间里还没走过的角落。

四、从"新鲜感"到"生成倾向"：数学原理通俗说

光有"新鲜感信号"还不够，ESamp还需要把这个信号变成影响每一步词语选择的实际力量。这里涉及一套优雅的数学推导，但其直觉非常好理解。

研究团队把语言生成的过程建模为一个"马尔可夫决策过程"，也就是把每一步选词都视为一个决策，每个决策都会影响后续的所有选词。他们希望找到一个最优策略，使得生成的内容既尽量探索新颖的语义区域，又不至于和原始AI的生成习惯偏离太远，保证答案依然连贯可读。

这个目标被写成一个带KL散度约束的优化问题——KL散度可以理解为衡量"新策略和原始AI习惯相差多远"的尺子，而这个优化问题有一个漂亮的解析解：新的词语分布正比于原始分布乘以一个基于新鲜感奖励的指数因子。

更妙的是，当研究团队把蒸馏器的预测误差具体代入这个公式时，结果在数学上等价于一个非常简洁的操作：把AI原本的词语评分（logits）与蒸馏器对应的词语评分做一个线性组合，具体公式是`新评分 = (1+β) × 原始评分 - β × 蒸馏器评分`，其中β是一个控制探索力度的超参数。

把这个公式分解来看，里面其实包含两层语义信息。第一层是"新鲜感强度"，由蒸馏器预测误差向量的整体大小决定：如果当前生成的上下文已经高度熟悉，整体误差很小，探索信号就弱；如果当前上下文非常新颖陌生，整体误差很大，探索信号就强，AI会被更强烈地推向未知领域。第二层是"语义方向"，由误差向量与各个候选词的词向量之间的余弦相似度决定：它不是盲目地提升所有陌生词汇的概率，而是专门提升那些能把生成方向引向新奇语义区域的词汇的概率。

这两层设计合在一起，使得ESamp惩罚的是"语义上重复"而非"字面上重复"，这正是它比简单调高随机性高明之处。

五、一个班级里的协作探险：批量生成时的神奇协同

ESamp最令人称道的特性之一，发生在同时生成多个答案的场景中。

当AI被要求一次性生成16个或64个候选答案时，这些答案是并行生成的——就像一个班级的同学同时做同一道题。在普通的采样方法下，大家虽然各自独立作答，但因为受到相似的训练偏好驱动，往往不约而同地走上同一条解题思路，最终交上来的卷子大同小异。

ESamp的巧妙之处在于，所有并行生成的序列共享同一个蒸馏器。这个共享机制创造了一个隐式的协调机制，功能类似于多人探险游戏里的"已探索地图"系统。当第一个序列走进某片语义区域时，蒸馏器快速学习了这片区域的表征映射，这条路在蒸馏器眼中就变成了"熟悉的老路"。于是，当后续序列也试图走向同一片区域时，蒸馏器给出低误差，探索奖励减弱，新评分公式自然压低了走这条路的概率——这些序列就被悄悄推开，被迫寻找其他方向。

研究人员把这个机制比作"先到先得"的资源分配策略。第一个探索某片语义领地的序列，等于为整个批次"占领"了那块区域，后来者会自动被引导至尚未被占领的空白地带。这种协调完全不需要序列之间显式通信，完全通过共享蒸馏器的参数更新来实现，既高效又优雅。

从实验数据中可以直观地看到这种协同效果：在BookCorpus创意写作数据集上，研究团队追踪了并行生成的多个序列在不同生成步骤中的平均两两余弦相似度（这个指标越低代表语义越多样）。普通采样方法的曲线在最初迅速下降后很快趋于平缓，多样化进程停滞；而ESamp的曲线则保持着持续下降的趋势，直到生成结束，语义分歧不断加深。

六、悄无声息的速度代价：异步流水线设计

一个显而易见的担忧是：蒸馏器需要实时训练，难道不会大幅拖慢AI生成速度？

研究团队对此设计了一套精妙的异步流水线，利用了大模型生成过程中天然存在的"空档期"。整个方案的核心逻辑可以用一家工厂的流水线来理解。

AI生成每个词的过程分为几个阶段：首先，嵌入层和第一个变换器层处理当前词，产出浅层表征；然后，剩余几十个中间变换器层依次处理，这个阶段是计算最重的"重活"，需要相对较长的时间；接着，最后一层输出深层表征，经过语言模型头投影到词汇空间，得到候选词评分；最后，采样、去标记化、任务调度等工作主要在CPU上执行，这段时间GPU相对空闲。

ESamp的蒸馏器被安排在两个"夹缝"时间里工作。蒸馏器的推理（预测深层表征）在第一层输出后立即启动，与中间那几十层的繁重计算同步进行；蒸馏器的训练（反向传播更新参数）则被安排在CPU处理采样任务的空闲期里进行。两个任务都不占用主流程的关键路径时间，就像一个员工在等电梯的时候顺手回了邮件一样。

通过CUDA流事件同步（类似精确的计时信号）、预分配GPU显存环形缓冲区（避免临时申请内存的延迟）以及对批次中前缀处理和解码处理分别激活的轻量级元数据检查，这套异步系统在标准Llama-3-8B模型上，蒸馏器的整个计算只需不到0.5毫秒，而中间变换器层的执行时间约为15-20毫秒，余量非常充裕。

在开源版本中，研究团队还进一步将蒸馏器的前向预测路径用Triton语言重写为专用GPU内核，仅对筛选后的候选词应用干预（而非对全词汇表投影），并加入CUDA图捕获以减少重复的内核启动开销，最终在RTX 4090 GPU上，ESamp的实际吞吐量仅比基础vLLM慢约1.2%，完全在可接受范围内。在多用户高并发场景下（32个请求批次、每请求16个样本），开销也仅上升至约4.25%。

七、实验验证：数学竞赛、科学问答、编程挑战、创意写作

研究团队在四个截然不同的领域对ESamp进行了大规模验证，力求证明这不是一个只在特定场景下奏效的"偏科生"方案。

在数学领域，他们选择了AIME 2024和AIME 2025——美国邀请数学考试，这是面向顶尖高中生的高难度数学竞赛，需要复杂的多步骤逻辑推导。在科学领域，他们使用了GPQA-Diamond，包含198道由博士级专家双重验证的生物、物理、化学选择题，连大多数非专业人士都会答错。在编程领域，他们采用LiveCodeBench v5，包含167道来自LeetCode、AtCoder、Codeforces竞赛平台的编程题，且这些题目都是在主流AI训练数据截止时间之后发布的，尽可能排除了AI"背题"的可能。在创意写作领域，他们使用BookCorpus书籍语料库，给AI提供一段故事文字的前半部分，让它续写后512个词。

评估指标的设计也经过深思熟虑。Pass@k是核心指标，表示在k个生成样本中至少有一个正确答案的概率，直接衡量候选集的有效覆盖度。语义相似度用生成文本的嵌入向量两两余弦相似度计算，越低说明语义越分散。Vendi分数是一个基于矩阵谱的多样性指标，刻画批次内有效的语义聚类数量，越高代表越多样（但在数学题场景中，由于正确答案只有一个，更分散的答案里也会包含更多错误方向，所以Vendi高不一定好）。困惑度（PPL）用于衡量生成文本的语言流畅度，越低表示语言越自然。

对比的基线方法涵盖了当前主流的所有类别：普通温度采样（最基础的随机方法）、Min-p采样（一种自适应截断概率的启发式方法）、FIRE方法（首个词用高温度、后续词用低温度的组合策略）、思维树（Tree of Thoughts，代表结构化搜索方法）、对比解码（Contrastive Decoding，用大小模型logit差值引导生成的逻辑层干预方法），以及OverRIDE（在词汇空间中在线训练辅助头以抑制重复词汇的测试时干预方法）。

被测试的模型横跨多个系列和规格：Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct（通用指令跟随模型）、Qwen3-8B（通用推理模型，配置为"不思考"模式以防止过长的推理链耗尽上下文窗口），以及GPT-OSS-20B（OpenAI开源的另一模型系列，配置为"低思考强度"模式）。

Pass@k曲线的整体趋势令人印象深刻。很多专门为多样性设计的方法在k值较小时表现不错，但随着k增大，普通的温度采样反而后来居上——这说明它们的探索策略缺乏持续性，只是短期有效。ESamp则在各模型、各任务上普遍展现出与最强方法持平或超越的表现，尤其在k值较大时优势更加稳固。

以GPT-OSS-20B在AIME数学竞赛上的结果为例，ESamp仅用8个样本就达到了其他基线方法需要64个样本才能达到的Pass@k水平，效率提升极为显著。在推理能力更强的模型上，ESamp的效果往往更加突出——研究团队推测，这是因为推理模型本身具有自我反思和修正的能力，更能利用ESamp提供的多样化语义方向生成真正不同的解题路径。

ESamp在数学任务（AIME24/25）上的增益通常高于问答（GPQA）和编程（LiveCodeBench），研究团队认为这与数学题开放式的解题空间有关：数学问题往往存在多种有效的解法路径，给语义探索留下了更大的发挥余地。

在创意写作任务中，ESamp展现出了一个其他方法普遍无法兼顾的特质：它同时达到了最高Vendi多样性分数、最低语义相似度，以及最低困惑度（也就是最佳语言流畅度）。这意味着ESamp真正打破了"多样性和连贯性之间的取舍"——其他方法提高随机性往往以牺牲文本质量为代价，而ESamp的探索更具方向性，生成的文本既新颖又自然。

在单样本准确率（Pass@1）方面，ESamp与基准方法基本持平，在多数情况下没有显著的准确率损失，甚至在GPT-OSS-20B的多个任务上还有所提升（例如AIME24的Pass@1从57.2提升至62.7，LiveCodeBench v5从43.4提升至51.8）。仅在少数情况（如Qwen2.5-7B在AIME25）出现轻微下滑，这与ESamp侧重于提升候选集覆盖度而非单次命中率的设计目标是一致的。

八、拆解实验：哪些设计真正有效

研究团队通过一系列严谨的消融实验，验证了ESamp各个组件的必要性。

首先是超参数β的敏感性测试。在Qwen2.5-7B上的AIME25实验中，β=0.1（探索力度弱）会使方法退化为接近普通采样，Pass@64为40.0%；β=0.25（默认值）效果最佳，Pass@64达46.7%；β=0.5（探索力度过强）反而适得其反，Pass@64降至30.0%，原因是过度惩罚了高置信度的词汇，导致生成内容质量下滑。更进一步，在Qwen3系列从4B到14B的不同规模模型上，β=0.25均表现稳定，无需针对模型规模重新调参。

其次是logit融合公式的对比。ESamp采用的`(1+β) × logitref - β × logitdist`公式，与简单的`logitref - β × logitdist`相比表现更优。原因在于前者在对角线上"放大"了原始分布的相对强度，更好地保留了基础模型的概率质量分布，防止探索信号完全压制模型原有的生成偏好。

第三个关键实验是"噪声消融"：研究团队把蒸馏器的真实误差向量替换为同等大小的随机高斯噪声，结果Pass@k几乎退化回普通采样水平。这有力地证明ESamp的增益不是来自随机扰动，而是来自误差向量中携带的结构化语义信息——那个向量准确编码了当前表征空间中"蒸馏器尚未学会预测的那部分信息"，指向了真正陌生的语义方向。

第四个实验是"表征空间 vs 词汇空间"的对比。研究团队构建了一个在词汇空间操作的蒸馏器变体——用同样的MLP结构，但通过冻结的语言模型头投影到词汇空间，用KL散度作为训练目标。结果这个变体不仅不稳定，性能还大幅低于潜在空间的ESamp，在AIME25的Pass@64上从63.9暴跌至43.3。这印证了在连续低维表征空间中估计新鲜度远比在离散高维词汇空间中稳定可靠。

第五个实验比较了共享蒸馏器与每个提示词独立维护一个蒸馏器的方案。在AIME数学题上，由于不同题目的推理结构差异很大，独立蒸馏器（每题一个）明显优于共享蒸馏器；但在LiveCodeBench编程题上，共享蒸馏器反而略好，可能因为更大的有效批次提供了更强的在线学习信号。研究团队指出，根据任务特性自适应切换共享策略是未来值得探索的方向。

第六个实验验证了ESamp与其他方法的可组合性。将ESamp与FIRE（特殊温度调度方法）组合使用，Qwen3-8B在AIME24的Pass@64从ESamp单独的80.0和FIRE单独的73.6进一步提升到83.3，说明两者各自作用在不同层面，可以叠加增益。将ESamp与自一致性（Self-Consistency，基于多数投票聚合答案）结合使用，在Maj@32上从53.7微升至54.5，改善幅度较小但方向一致，因为ESamp鼓励发散而多数投票鼓励收敛，两者目标存在天然张力。

九、一场AI写故事的品味测试

为了检验ESamp在创意写作上的多样性增益是否仅仅是数字上的把戏，研究团队还做了一场单盲的"AI评委"实验：用Gemini 3 Flash Preview充当裁判，在不知道哪组答案来自哪种方法的情况下，对2000个BookCorpus提示词下的16个并行生成结果进行多样性和质量排名（排名越低越好）。

结果显示，ESamp获得最佳多样性排名（1.63分，低于Vanilla的1.97和OverRIDE的2.40），同时质量排名保持在接近Vanilla的水平（1.97 vs 1.83），远优于OverRIDE的2.20。这验证了定量指标不是虚假信号——ESamp确实产出了被独立评判者认为更有意义的多样化内容。

研究团队还提供了一个具体的案例对比，同样面对一道关于9公里徒步和咖啡馆停留时间的数学题。ESamp生成的16个答案展现出丰富的解题个性：有些用标准代数消元法先解速度、有些以咖啡馆时间t为主变量建立更复杂的二次方程、有些模拟人类直觉采用"猜测+验证"的试错策略，还有些在分钟和小时之间来回切换单位处理方式，甚至有一个序列出现了自我纠错的过程（遇到负判别式后转换思路）。相比之下，普通采样生成的16个答案几乎全部遵循同一套流程：将2小时24分钟转为2.4小时，建立同一个二次方程，以完全相同的顺序求解。多样性评分分别为9.5/10和3.0/10。

说到底，ESamp这项研究想要解决的，是一个在AI能力快速膨胀时代里容易被忽视的细节问题：当我们让AI多想几遍的时候，它到底是真的在用不同的脑子想，还是只是在反复默念同一道咒语？

研究团队给出了一个令人信服的答案：通过在AI自己的内部表征空间里安装一个实时的"新鲜感探测器"，用极低的性能开销，就能让并行生成的多个答案真正走向不同的语义领地，而不只是换着说法重复同一种思路。这不是一个需要大规模改造训练流程、重新训练模型的重量级方案，而是一个在推理阶段即插即用的解码策略，对任何已经训练好的大型语言模型都可以直接适用。

对于普通用户来说，这意味着未来在使用需要复杂推理的AI工具时（无论是解数学题、写代码还是进行科学分析），同样数量的"多次尝试"能够换来质量更高的候选集，找到正确答案的概率更大，而不需要付出更多的时间或计算成本。从更宏观的视角看，ESamp为构建更高效的AI测试时扩展系统提供了一个可行的工具，而测试时扩展被许多研究者视为大型语言模型能力天花板的重要突破口之一。

有兴趣深入了解完整技术细节的读者，可以通过arXiv编号2604.24927找到这篇论文的全文，开源代码也已在GitHub的LinesHogan/tLLM仓库中公开发布。

Q&A

Q1：ESamp（探索性采样）和普通调高AI温度参数有什么根本区别？

A：普通的温度调高只是在词语层面引入更多随机性，就像用骰子随机选词，换的是表面措辞。ESamp则通过监测AI深层神经网络内部的"语义表征"来识别思路是否真正新颖，它惩罚的是"语义上重复"而非"字面上重复"。因此ESamp能引导AI走向真正不同的推理路径，而不仅仅是同一思路的不同表达。

Q2：ESamp的蒸馏器在线训练会不会让AI生成速度变慢很多？

A：实测影响非常小。研究团队采用了异步流水线设计，把蒸馏器的推理和训练都安排在主模型运算的"空档期"进行，蒸馏器整个计算不到0.5毫秒，而中间层的运算约需15-20毫秒，余量充裕。开源版本在RTX 4090上测得的吞吐量仅比标准vLLM慢约1.2%，即使在32个请求、每请求16个并行样本的高负载场景，开销也只有约4.25%。

Q3：探索性采样方法对哪类AI任务效果最明显？

A：从实验结果看，ESamp对数学推理类任务（如AIME竞赛题）的提升幅度最大，对推理能力强的模型（如GPT-OSS-20B和Qwen3系列）增益也更显著。研究团队认为这是因为开放式数学问题存在多种有效解法，给语义探索留下了更大空间。代码生成和多选科学问答的提升相对小一些，但创意写作任务中ESamp实现了同类方法罕见的"多样性和流畅度同时提升"。