开源模型89.2%的数学成绩，让闭源神话开始动摇|开源模型|数学|新论文|智能体|算法|调用|闭源神话

美国高中数学邀请赛（AIME）的考场上，能坐着的都是全美前5%的数学尖子。这场考试考的不是刷题速度，是多步骤证明构造、数论与组合几何的优雅推理——大多数成年人连题目都读不懂。

去年，谷歌的Gemma 3在这张卷子上拿了20.8%。

今年，Gemma 4拿了89.2%。

这不是迭代优化，是质变。而且发生在单代模型之间，发生在一台消费级GPU就能跑的开源权重模型上。

先看完整体数据，再谈这意味着什么。

Codeforces ELO 2150是什么概念？全球竞技编程选手中的前0.1%，大师级段位。Gemma 3的ELO只有110， essentially是个新手。Gemma 4的2150意味着：在算法竞赛里，它能击败几乎所有职业软件工程师。

但真正让开发者坐直的是另一组数字：智能体工具使用率，从6.6%跳到86.4%。这不是学术基准测试，是模型链式调用工具、处理错误、自主完成多步骤任务的实际能力。成功率86%的智能体是生产工具，6.6%的是玩具。

什么变了？

不是简单的堆算力、灌数据。架构和训练方式发生了实质性转向：

第一，思考模式（Thinking mode）。Gemma 4内置了思维链推理，解题前会先"打草稿"——最多4000多个token的推演过程，再给出答案。20.8%是立即作答的成绩，89.2%是拥有4000 token草稿纸后的成绩。

第二，原生函数调用。智能体能力的跃升几乎完全源于此。Gemma 3是被提示词逼出函数调用的，Gemma 4把工具使用作为一等训练目标。

第三，MoE架构。26B参数的A4B MoE模型在AIME上拿到88.3%，几乎追平31B的稠密模型，但每次推理只激活4B参数。专家 specialization 确实在起作用：数学题被路由给数学专家。

第四，256K上下文。多步推理需要跨步骤维持复杂状态，更长的上下文意味着推理链延长时信息损失更少。

这些不是同一思路的渐进改良，是换了一条路。

一年前的行业共识是：开源模型落后前沿6-12个月，且将维持这个差距；正经干活还得用GPT-4或Claude。

Gemma 4 31B的基准测试对比正在动摇这个判断。需要谨慎的是：这些测试并非同步进行，模型能力也会随更新变化。关键不在于"Gemma 4在某项上击败了GPT-4o"，而在于开源与闭源的差距正在以快于预期的速度收窄。

当消费级硬件能跑起接近前沿的推理能力，当89.2%的数学成绩来自公开权重而非API密钥——开发者开始重新计算成本结构、数据主权和定制自由度。这不是说闭源模型没有优势，是说"必须用闭源"的默认假设，正在变得可质疑。

开源模型89.2%的数学成绩，让闭源神话开始动摇