昨天 OpenAI 用一套自拟标准「自封」了 AI 奥数金牌,今天,Google DeepMind 给出了一份真正经得起检验的成绩单。
根据 Google 官方博客,搭载增强版 Deep Think 的 Gemini,在国际数学奥林匹克(IMO)中获得了35 分,被 IMO 官方认证为达到了金牌水平。
从去年起,AI 模型开始将 IMO 视为挑战人类数学能力极限的重要 benchmark。
2024 年,DeepMind 的 AlphaGeometry 与 AlphaProof 系统联合出战,解出 4 题,取得 28 分,获得 IMO 银牌。
但那一次,AI 模型解题前仍需专家将自然语言题目翻译为形式化语言(是一类用严格的数学语言来表达和验证数学证明的工具),整个过程耗时长达 2~3 天。
今年,Gemini Deep Think 版本则实现了完全不同的突破。
完全基于自然语言和 Gemini 完成推理,在官方 4.5 小时时限内交卷;
由 IMO 组委会使用和学生同样的标准进行批改;最终 6 题答对 5 题,达到金牌线。
IMO 主席 Gregor Dolinar 明确表示,「Google DeepMind 达到了备受期待的里程碑,解题结果清晰、严谨、易于理解。」
这次的 Gemini Deep Think 模式,是 DeepMind 内部为高复杂度推理问题开发的增强版本。
相比以往线性单线程式思考,Deep Think 模式能并行展开多种思路探索,最终整合出一份更优的解法。
此外,该版本还使用了多步骤强化学习方法,吸收了数学竞赛题、高质量解题集和人类专家的解题思路。
尽管 Gemini 的表现令人惊艳,DeepMind 也强调,这只是迈向 AI 数学智能的一步。
Google 仍在继续发展他的形式化证明系统,并希望将自然语言与严格逻辑推理融合,打造真正能在数学、科学、工程等复杂问题中协助人类的 AI 工具。
而马斯克也在 X 评论说,「虽然这是一个显著的里程碑,但对人工智能来说已经接近微不足道」。毕竟马斯克的 Grok 可是在所有学术领域都达到博士水平。
增强版的 Deep Think 模型将在未来首先向部分数学家开放内测,并最终向 Google AI Ultra 用户开放。
热门跟贴