美国高中数学邀请赛(AIME)的考场上,能坐着的都是全美前5%的数学尖子。这场考试考的不是刷题速度,是多步骤证明构造、数论与组合几何的优雅推理——大多数成年人连题目都读不懂。
去年,谷歌的Gemma 3在这张卷子上拿了20.8%。
今年,Gemma 4拿了89.2%。
这不是迭代优化,是质变。而且发生在单代模型之间,发生在一台消费级GPU就能跑的开源权重模型上。
先看完整体数据,再谈这意味着什么。
Codeforces ELO 2150是什么概念?全球竞技编程选手中的前0.1%,大师级段位。Gemma 3的ELO只有110, essentially是个新手。Gemma 4的2150意味着:在算法竞赛里,它能击败几乎所有职业软件工程师。
但真正让开发者坐直的是另一组数字:智能体工具使用率,从6.6%跳到86.4%。这不是学术基准测试,是模型链式调用工具、处理错误、自主完成多步骤任务的实际能力。成功率86%的智能体是生产工具,6.6%的是玩具。
什么变了?
不是简单的堆算力、灌数据。架构和训练方式发生了实质性转向:
第一,思考模式(Thinking mode)。Gemma 4内置了思维链推理,解题前会先"打草稿"——最多4000多个token的推演过程,再给出答案。20.8%是立即作答的成绩,89.2%是拥有4000 token草稿纸后的成绩。
第二,原生函数调用。智能体能力的跃升几乎完全源于此。Gemma 3是被提示词逼出函数调用的,Gemma 4把工具使用作为一等训练目标。
第三,MoE架构。26B参数的A4B MoE模型在AIME上拿到88.3%,几乎追平31B的稠密模型,但每次推理只激活4B参数。专家 specialization 确实在起作用:数学题被路由给数学专家。
第四,256K上下文。多步推理需要跨步骤维持复杂状态,更长的上下文意味着推理链延长时信息损失更少。
这些不是同一思路的渐进改良,是换了一条路。
一年前的行业共识是:开源模型落后前沿6-12个月,且将维持这个差距;正经干活还得用GPT-4或Claude。
Gemma 4 31B的基准测试对比正在动摇这个判断。需要谨慎的是:这些测试并非同步进行,模型能力也会随更新变化。关键不在于"Gemma 4在某项上击败了GPT-4o",而在于开源与闭源的差距正在以快于预期的速度收窄。
当消费级硬件能跑起接近前沿的推理能力,当89.2%的数学成绩来自公开权重而非API密钥——开发者开始重新计算成本结构、数据主权和定制自由度。这不是说闭源模型没有优势,是说"必须用闭源"的默认假设,正在变得可质疑。
热门跟贴