来源:市场资讯

打开网易新闻 查看精彩图片

本文由加州大学伯克利分校、德克萨斯大学奥斯汀分校、斯坦福大学、普林斯顿大学与 Together AI 的研究团队共同完成。研究团队致力于探索大语言模型推理优化、多模型协同与高效计算等前沿方向。

本文作者 Monishwaran 和 Leon Lakhani 来自 UC Berkeley,研究方向为大语言模型。指导教师是 UT Austin 助理教授徐晨丰(研究方向为高效机器学习)和 Stanford 教授 James Zou(研究方向为机器学习、计算生物学等)。

打开网易新闻 查看精彩图片

  • 论文链接:https://arxiv.org/abs/2604.07725

  • 项目主页:https://squeeze-evolve.github.io

  • 代码仓库:https://github.com/squeeze-evolve/squeeze-evolve

打开网易新闻 查看精彩图片

每个大语言模型都有其能力天花板。增加推理预算、生成更多候选、运行更多优化循环 —— 单个模型只是在重复同样的先验知识、同样的失败模式、同样的盲点。其生成的答案种群会逐渐收敛并停滞不前。

如果突破天花板的方法不是更大的模型,而是一套协同进化的模型系统呢?

这就是 Squeeze Evolve 的核心理念:一个多模型进化框架,通过编排具有不同优势、失败模式和推理风格的模型,在无需任何外部验证器的情况下,产生任何单一模型都无法单独实现的能力。

研究背景

测试时扩展(Test-time Scaling)通过生成多个候选答案并通过选择和重组进行迭代优化,使模型能够「更深入地思考」。当与外部验证器配合使用时,这种进化方法已在代码生成和科学发现领域取得突破。

然而,在许多重要领域(例如等离子体模拟、湿实验室实验、开放式数学推理等),验证要么成本过高、速度过慢,要么根本不可用。进化必须在没有真实反馈的情况下进行。

这就是无验证器进化,它面临一个根本性问题:单模型种群会崩溃。

没有外部校正时,模型会放大它已经知道如何识别和重现的轨迹。丢弃数量极少但正确的方案。因此,多样性在进化中至关重要。一旦多样性丧失,就无法恢复,后续循环只能重组幸存轨迹的后代,陷入狭窄的解空间模式。

这就是为什么单纯扩大单个模型的推理预算会遇到收益递减。瓶颈不是算力,而是多样性。

打开网易新闻 查看精彩图片

方法概述

不同模型具有不同的先验知识、不同的训练数据分布、不同的失败模式。当它们参与同一个进化过程时,能够维持单一模型无法独立保持的互补谱系。

一个推理模型可能擅长多步逻辑推理,但在空间推理上表现不佳。一个指令微调模型可能整体较弱,但带来不同的归纳偏置,保留了推理模型会剪枝的解决路径。即使是一个小得多的模型也能做出有意义的贡献 —— 不是因为它 individually 更强,而是因为它以不同的方式犯错。

这就是 Squeeze Evolve 能够超越任何单一模型能力的机制。多模型编排不仅仅是成本工程 —— 它是能力放大器。

研究团队发现了三个关键实证结果:

初始化主导最终准确性:Loop 0(初始种群)的质量是最终性能的最强预测因子。在 AIME 2025 上,反转初始化模型和重组模型的角色会导致准确率下降高达 23 个百分点。最强模型必须锚定起始种群。

当候选集足够强时,弱模型是强大的聚合器:当一个组已经包含正确轨迹时,即使小得多的模型也能有效聚合它们 —— 接近 100% 的准确率。昂贵模型的优势集中在最难、最不确定的组上。在其他地方,便宜模型不仅足够,而且充分。

模型置信度预测哪里需要能力:从 token 对数概率导出的组置信度(Group Confidence, GC)能够清晰地区分包含正确轨迹的组和不包含的组。这个信号是没有任何成本的(在推理过程中产生),适用于不同模型家族,并直接告诉我们哪些组需要昂贵模型,哪些可以安全地交给便宜模型处理。

打开网易新闻 查看精彩图片

实验评估

研究团队在数学推理、视觉理解、科学发现等多个领域进行了系统验证。相比单模型 RSA 基线:

  • AIME 2025:GPT-OSS-20B 与 GPT-5 mini 组合后以 55% 成本超越 GPT-5 mini(95.4% vs 94.2%)

打开网易新闻 查看精彩图片

  • MMMU-Pro:使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的组合以 43% 的成本超越 Kimi-2.5-Thingking 单模型(79.1% vs 78.6%)

打开网易新闻 查看精彩图片

  • ARC-AGI-V2:使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法 (3.7x 成本节约,93.3⭢97.5% 准确率提升)

打开网易新闻 查看精彩图片

  • 圆堆积问题:无需验证器的情况下使用开源模型(GPT-OSS 120B + 20B)效果匹配基于验证器的闭源 AlphaEvolve 基线方法(使用 Gemini-2.0 Pro + Flash)

打开网易新闻 查看精彩图片

  • 在所有 8 个基准测试上成本降低 1.4–3.3x,吞吐量提升 4–10x

打开网易新闻 查看精彩图片

总结与展望

Squeeze Evolve 的核心洞见是:单个模型的天花板不是模型系统的天花板。

通过将现有的测试时扩展方法统一到共同的进化框架中,研究团队揭示了一个设计空间,在这个空间中,模型根据它们的能力在何处具有最高边际效用被分配到进化角色。结果不仅仅是更便宜的推理 —— 而是真正更强的推理。协同进化的模型产生它们单独无法产生的解决方案。

这将测试时扩展从「在更大的模型上花更多钱」重新定义为多模型系统优化问题。前沿不是仅由单个模型能力推动的 —— 而是由你如何智能地编排已有模型推动的。