多模型协同进化突破单模型天花板？Squeeze Evolve：无需验证器实现推理新SOTA|evolve|squeeze|协同进化|推理|轨迹|验证器

来源：市场资讯

本文由加州大学伯克利分校、德克萨斯大学奥斯汀分校、斯坦福大学、普林斯顿大学与 Together AI 的研究团队共同完成。研究团队致力于探索大语言模型推理优化、多模型协同与高效计算等前沿方向。

本文作者 Monishwaran 和 Leon Lakhani 来自 UC Berkeley，研究方向为大语言模型。指导教师是 UT Austin 助理教授徐晨丰（研究方向为高效机器学习）和 Stanford 教授 James Zou（研究方向为机器学习、计算生物学等）。

论文链接：https://arxiv.org/abs/2604.07725
项目主页：https://squeeze-evolve.github.io
代码仓库：https://github.com/squeeze-evolve/squeeze-evolve

每个大语言模型都有其能力天花板。增加推理预算、生成更多候选、运行更多优化循环 —— 单个模型只是在重复同样的先验知识、同样的失败模式、同样的盲点。其生成的答案种群会逐渐收敛并停滞不前。

如果突破天花板的方法不是更大的模型，而是一套协同进化的模型系统呢？

这就是 Squeeze Evolve 的核心理念：一个多模型进化框架，通过编排具有不同优势、失败模式和推理风格的模型，在无需任何外部验证器的情况下，产生任何单一模型都无法单独实现的能力。

研究背景

测试时扩展（Test-time Scaling）通过生成多个候选答案并通过选择和重组进行迭代优化，使模型能够「更深入地思考」。当与外部验证器配合使用时，这种进化方法已在代码生成和科学发现领域取得突破。

然而，在许多重要领域（例如等离子体模拟、湿实验室实验、开放式数学推理等），验证要么成本过高、速度过慢，要么根本不可用。进化必须在没有真实反馈的情况下进行。

这就是无验证器进化，它面临一个根本性问题：单模型种群会崩溃。

没有外部校正时，模型会放大它已经知道如何识别和重现的轨迹。丢弃数量极少但正确的方案。因此，多样性在进化中至关重要。一旦多样性丧失，就无法恢复，后续循环只能重组幸存轨迹的后代，陷入狭窄的解空间模式。

这就是为什么单纯扩大单个模型的推理预算会遇到收益递减。瓶颈不是算力，而是多样性。

方法概述

不同模型具有不同的先验知识、不同的训练数据分布、不同的失败模式。当它们参与同一个进化过程时，能够维持单一模型无法独立保持的互补谱系。

一个推理模型可能擅长多步逻辑推理，但在空间推理上表现不佳。一个指令微调模型可能整体较弱，但带来不同的归纳偏置，保留了推理模型会剪枝的解决路径。即使是一个小得多的模型也能做出有意义的贡献 —— 不是因为它 individually 更强，而是因为它以不同的方式犯错。

这就是 Squeeze Evolve 能够超越任何单一模型能力的机制。多模型编排不仅仅是成本工程 —— 它是能力放大器。

研究团队发现了三个关键实证结果：

初始化主导最终准确性：Loop 0（初始种群）的质量是最终性能的最强预测因子。在 AIME 2025 上，反转初始化模型和重组模型的角色会导致准确率下降高达 23 个百分点。最强模型必须锚定起始种群。

当候选集足够强时，弱模型是强大的聚合器：当一个组已经包含正确轨迹时，即使小得多的模型也能有效聚合它们 —— 接近 100% 的准确率。昂贵模型的优势集中在最难、最不确定的组上。在其他地方，便宜模型不仅足够，而且充分。

模型置信度预测哪里需要能力：从 token 对数概率导出的组置信度（Group Confidence, GC）能够清晰地区分包含正确轨迹的组和不包含的组。这个信号是没有任何成本的（在推理过程中产生），适用于不同模型家族，并直接告诉我们哪些组需要昂贵模型，哪些可以安全地交给便宜模型处理。

实验评估

研究团队在数学推理、视觉理解、科学发现等多个领域进行了系统验证。相比单模型 RSA 基线：

AIME 2025：GPT-OSS-20B 与 GPT-5 mini 组合后以 55% 成本超越 GPT-5 mini（95.4% vs 94.2%）

MMMU-Pro：使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的组合以 43% 的成本超越 Kimi-2.5-Thingking 单模型（79.1% vs 78.6%）

ARC-AGI-V2：使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法（3.7x 成本节约，93.3⭢97.5% 准确率提升）

圆堆积问题：无需验证器的情况下使用开源模型（GPT-OSS 120B + 20B）效果匹配基于验证器的闭源 AlphaEvolve 基线方法（使用 Gemini-2.0 Pro + Flash）

在所有 8 个基准测试上成本降低 1.4–3.3x，吞吐量提升 4–10x

总结与展望

Squeeze Evolve 的核心洞见是：单个模型的天花板不是模型系统的天花板。

通过将现有的测试时扩展方法统一到共同的进化框架中，研究团队揭示了一个设计空间，在这个空间中，模型根据它们的能力在何处具有最高边际效用被分配到进化角色。结果不仅仅是更便宜的推理 —— 而是真正更强的推理。协同进化的模型产生它们单独无法产生的解决方案。

这将测试时扩展从「在更大的模型上花更多钱」重新定义为多模型系统优化问题。前沿不是仅由单个模型能力推动的 —— 而是由你如何智能地编排已有模型推动的。

多模型协同进化突破单模型天花板？Squeeze Evolve：无需验证器实现推理新SOTA

热搜

热门跟贴

热搜

热门跟贴

相关推荐

“训练为王”终结 ：AI推理新浪潮，英伟达谷歌华为切换赛道

「自进化」AI集体翻车：3个灵魂拷问戳破营销泡沫

Anthropic双线作战：最强模型藏着不给用，公开版被故意"削"了10项能力

数学研究证实-强大AI必现意外行为，单一控制是幻觉

主动推理智能体的共情建模：视角对齐

Deepseek V4第一波测评来了！

DeepSeek-V4实测：超高效上下文，更像是token价格战的序章

人类用进化器全是好奇

实测DeepSeek V4：Agent能力领先开源，3D小票翻车，但经典洗车问题终于对了

你的智能体第3轮就崩了，第7轮才发现

Claude被吐槽3年不会画图，开发者用1个协议让它秒变多模态

SemiAnalysis CEO：模型"近两年最大能力跃迁"，让“执行变得极其廉价”，供应链"极度短缺"

智能体卷王诞生！干活自动配结项报告，1.5张截图就把事说清了

硬刚GPT-Image-2！国产AI生图“天花板”又被捅破了？

创办AI公司来革自己的命，前OpenAI推理模型负责人自立门户

字节养的“虾”与1500亿账本背后

朱旻琦：具身智能用一天进化一天、聪明一天 机器人普及核心痛点是需要二次开发和适配

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

00后小哥复刻Claude最强神话模型OpenMythos

OpenAI发表Nature论文：揭开AI模型总“说谎”的真相，人类对AI准确性的评估促使其产生幻觉

“训练为王”终结：AI推理新浪潮，英伟达谷歌华为切换赛道

朱旻琦：具身智能用一天进化一天、聪明一天机器人普及核心痛点是需要二次开发和适配