谷歌 Gemini 3 Deep Think 刷新全球 SOTA,Codeforces 排名全球第七,击败人类世界冠军。不仅能编程,还能直接把草图变成 3D 打印模型,甚至发现了连人类科学家都遗漏的论文漏洞。OpenAI 迎来最强劲敌。
打开网易新闻 查看精彩图片

就在刚刚,Gemini 3 Deep Think重磅升级,以一种恐怖的姿态刷爆了全领域的SOTA(当前最佳技术水平)。这不是一次简单的版本迭代,而是一次 AI 推理能力的维度跨越——在科学研究和硬核工程领域,它已经不再是“副驾驶”,而是真正的最强大脑。

打开网易新闻 查看精彩图片

一个数据足以让所有开发者沉默:在刚刚结束的 Codeforces 编程比赛中,Gemini 3 Deep Think 拿下了3455Elo的惊人分数。 这意味着什么?它不仅达到了世界冠军级的水准,更直接冲入了人类 TOP 10,排名全球第七

也就是说,在这个星球上,目前仅有 7 个人类选手能勉强压制住它。作为对比,一年前被奉为神作的最强OpenAI o3 模型,也仅仅拿下了 2727 Elo。Gemini 3 Deep Think 的出现拿到3455 Elo,让 AI 编程能力直接断层领先。

但这只是冰山一角。 在人类最后考试(HLE)上,它拿下了 48.4%的成绩,刷新 SOTA; 在最难的 ARC-AGI-2 基准测试中,它一夜之间让榜单直接饱和,以84.6%的分数一骑绝尘。

与 Gemini 3 Pro 相比,Deep Think 实现了全方位的反超,更是将 ClaudeOpus 4.6、GPT-5.2直接踩在了脚下。

打开网易新闻 查看精彩图片

目前,Google AI Ultra 订阅用户已经可以在后台直接体验,API 也已向部分开发者开放。属于 AI 推理的新纪元,真的来了。

Gemini 3 Deep Think 的强,不是挤牙膏式 5% 提升,是断崖式的维度打击。

让我们看一组让友商窒息的数据:

  • ARC-AGI-2 基准(84.6%):这是一个标志性时刻。ARC 曾被认为是 AI 无法逾越的“抽象推理长城”,但 Deep Think 一夜之间将其打穿。84.6% 的得分意味着该榜单已接近饱和,换句话说,在纯粹的抽象逻辑推理上,它已经没有对手了。
  • 人类最后考试(HLE):在这个号称AI 噩梦的测试集上,Deep Think 拿下了48.4%。听起来不高?但请注意,此前最强的模型连及格线的一半都摸不到。
  • 奥赛金牌收割机:2025 年国际数学奥林匹克(IMO)、物理奥林匹克(IPhO)、化学奥林匹克(IChO),它全部具备了金牌水平。甚至在高级理论物理的 CMT-Benchmark 中,它也游刃有余地拿到了 50.5%。

全方位反超,绝非虚言。在 Google 官方公布的雷达图中,Gemini 3 Deep Think 几乎包围了所有竞争对手。曾经的逻辑之王Claude Opus 4.6 在它面前显得反应迟钝,而 GPT-5.2 更是被远远甩在身后。

一位参与测试的开发者在推特上感叹:以前我们对比模型是用跑分,现在对比 Deep Think,感觉像是在用智商。

它不仅是在做题,它是在思考。官方演示中,Deep Think 展现出的不仅仅是计算能力,更是一种对复杂系统的多维理解力——这也为它在现实物理世界中的惊人表现埋下了伏笔。

如果说前面的跑分只是学霸的自我修养,那么接下来的实战表现,才真正让人感受到了 Gemini3 Deep Think 对物理世界的降维打击

它不再只是一个能聊天的 Bot,它开始具备了工程师的直觉和设计师的手眼。

最令人震撼的一幕,发生在谷歌 VP 的一个副业项目中:他随手画了一张极其实际的、甚至有些潦草的笔记本电脑支架草图,扔给了 Deep Think。 Deep Think 没有废话,它不仅仅是“看懂”了这张图,而是瞬间化身为一名资深工业设计师。它分析了草图结构,自动补全了物理细节,直接渲染出了一个高保真、可落地的 3D 模型方案。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

它紧接着生成了 3D 打印所需的 STL 文件。谷歌 VP 拿着这个文件直接去打印,最终的成品——一个完美的、稳固的笔记本支架,就这样诞生了。 从一张餐巾纸草图,到手中的实物,中间没有任何人类建模师的参与。这哪里是AI,这简直是光速原型机。

除了懂物理,它的审美也在线。Simon Willison 为了刁难它,发出了一个离谱指令:“生成一张鹈鹕骑自行车的 SVG 矢量图”。 Deep Think 并没有像以往的模型那样生成一团乱码,而是画出了一张线条流畅、结构合理的矢量图。 Simon 看完直接炸了

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

既然基础题难不倒它,Simon 决定加大难度。结果 Deep Think 在处理复杂的几何图形和矢量路径时,依然表现得游刃有余。 只需一张图、一个提示词,它就能深入思考,提供几个你从未设想过的设计方案。

对于产品经理和设计师来说,这意味着什么? 这意味着 “想法即产品”的时代真的来了。AI 开始理解空间、理解结构、理解物理约束——这才是通往 AGI 的必经之路。

画图、写代码还在我们可以理解的范畴,那么 Gemini 3 Deep Think 在科研领域的表现,则让人感到一丝畏惧。

这一次,谷歌让 AI 真正渗透进了科研工作的“最后一公里”:审阅论文、工业设计、实验优化,无所不包。 当 AI 能够揪出连人类顶级审稿人都忽略的逻辑漏洞时,辅助工具这四个字显然已经配不上它了。

罗格斯大学数学家 Lisa Carbone :她在研究时,把一篇极高深的物理数学论文扔给了 Deep Think 审查。 结果,Deep Think 竟然在复杂的推导中,敏锐地发现了一个连人类同行评审都遗漏的细微逻辑漏洞。 这不仅是读懂了论文,更是具备了批判性思维。在学术界,这意味着它已经具备了独立研究员的资格。

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

打开网易新闻 查看精彩图片

而在杜克大学,Wang Lab 的科学家们则被它的“创造力”震惊了。为了优化一种复杂晶体的生长制造方法,Deep Think 不仅分析了现有数据,还成功设计出了一种生长大于 100 μm 薄膜的全新配方。 这个精确目标,在此前的方法中几乎难以实现。它不仅给出了方案,还预测了结果,直接让物理零部件建模加速了十倍。

打开网易新闻 查看精彩图片

更疯狂的是,它开始解决数学难题。背靠 Deep Think 的“AI 数学加” Aletheia,已经可以独立撰写论文,甚至成功证明了“Erdős 猜想”中的多个难题。 在官方演示中,它还为晦涩难懂的“时空循环视频 Transformer”架构,创建了一个完美的可视化方案。

这意味着什么? 这意味着在科学发现的领域,AI 已经从整理资料进化到了产出新知。对于科研人员来说,它既是最好的搭档,也是最强的对手。

Google AI Ultra 订阅用户即刻起就能在 Gemini 后台体验新版 Deep Think。同时,谷歌首次通过 API 向部分研究人员、工程师和企业开放了这一能力。

这可能是一个转折点。 过去的一年,我们习惯了用“生成速度”和“上下文长度”来衡量一个模型。但 Gemini 3 Deep Think 的出现告诉我们:在解决真正的科学难题时,慢思考(Deep Think)比快直觉更重要。

去年,Deep Think 还需要专门版才能解决数学难题;而今天,通用版的它已经能在 Codeforces 上虐杀人类选手,在实验室里指导科学家做实验。

如今,巨大的压力球被狠狠抛回给了 OpenAI。面对谷歌这记直击痛点、甚至可以说是“羞辱级”的 SOTA 回击,Sam Altman 手里还藏着什么牌? 传说中的 GPT-5 或者是那个神秘的“Q*”,如果不能拿出超越“自主科研”级别的能力,恐怕很难再复刻当年的 ChatGPT 时刻了。

2026 年的 AI 战争,才刚刚开始。但至少,谷歌 DeepMind 是跑在前方的赢家。

本文由 @XinxinWang 原创发布于人人都是产品经理,未经许可,禁止转载