OpenAI 脸都肿了！谷歌喜提首个真「AI 奥数金牌」，奥特曼尴尬了

AppSo

2025-07-22 11:19 ·广东 ·AppSo官方网易号

昨天 OpenAI 用一套自拟标准「自封」了 AI 奥数金牌，今天，Google DeepMind 给出了一份真正经得起检验的成绩单。

根据 Google 官方博客，搭载增强版 Deep Think 的 Gemini，在国际数学奥林匹克（IMO）中获得了35 分，被 IMO 官方认证为达到了金牌水平。

从去年起，AI 模型开始将 IMO 视为挑战人类数学能力极限的重要 benchmark。

2024 年，DeepMind 的 AlphaGeometry 与 AlphaProof 系统联合出战，解出 4 题，取得 28 分，获得 IMO 银牌。

但那一次，AI 模型解题前仍需专家将自然语言题目翻译为形式化语言（是一类用严格的数学语言来表达和验证数学证明的工具），整个过程耗时长达 2~3 天。

今年，Gemini Deep Think 版本则实现了完全不同的突破。

完全基于自然语言和 Gemini 完成推理，在官方 4.5 小时时限内交卷；

由 IMO 组委会使用和学生同样的标准进行批改；最终 6 题答对 5 题，达到金牌线。

IMO 主席 Gregor Dolinar 明确表示，「Google DeepMind 达到了备受期待的里程碑，解题结果清晰、严谨、易于理解。」

这次的 Gemini Deep Think 模式，是 DeepMind 内部为高复杂度推理问题开发的增强版本。

相比以往线性单线程式思考，Deep Think 模式能并行展开多种思路探索，最终整合出一份更优的解法。

此外，该版本还使用了多步骤强化学习方法，吸收了数学竞赛题、高质量解题集和人类专家的解题思路。

尽管 Gemini 的表现令人惊艳，DeepMind 也强调，这只是迈向 AI 数学智能的一步。

Google 仍在继续发展他的形式化证明系统，并希望将自然语言与严格逻辑推理融合，打造真正能在数学、科学、工程等复杂问题中协助人类的 AI 工具。

而马斯克也在 X 评论说，「虽然这是一个显著的里程碑，但对人工智能来说已经接近微不足道」。毕竟马斯克的 Grok 可是在所有学术领域都达到博士水平。

增强版的 Deep Think 模型将在未来首先向部分数学家开放内测，并最终向 Google AI Ultra 用户开放。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴