打开网易新闻 查看精彩图片

就在刚刚,Gemini 3 Deep Think重磅升级,以一种恐怖的姿态刷爆了全领域的SOTA(当前最佳技术水平)。这不是一次简单的版本迭代,而是一次 AI 推理能力的维度跨越——在科学研究和硬核工程领域,它已经不再是“副驾驶”,而是真正的最强大脑。

打开网易新闻 查看精彩图片

一个数据足以让所有开发者沉默:在刚刚结束的 Codeforces 编程比赛中,Gemini 3 Deep Think 拿下了3455Elo的惊人分数。 这意味着什么?它不仅达到了世界冠军级的水准,更直接冲入了人类 TOP 10,排名全球第七!

也就是说,在这个星球上,目前仅有 7 个人类选手能勉强压制住它。作为对比,一年前被奉为神作的最强OpenAI o3 模型,也仅仅拿下了 2727 Elo。Gemini 3 Deep Think 的出现拿到3455 Elo,让 AI 编程能力直接断层领先。

但这只是冰山一角。 在人类最后考试(HLE)上,它拿下了48.4%的成绩,刷新 SOTA; 在最难的 ARC-AGI-2 基准测试中,它一夜之间让榜单直接饱和,以84.6%的分数一骑绝尘。

与 Gemini 3 Pro 相比,Deep Think 实现了全方位的反超,更是将ClaudeOpus 4.6、GPT-5.2直接踩在了脚下。

打开网易新闻 查看精彩图片

目前,Google AI Ultra 订阅用户已经可以在后台直接体验,API 也已向部分开发者开放。属于 AI 推理的新纪元,真的来了。

Gemini 3 Deep Think 的强,不是挤牙膏式 5% 提升,是断崖式的维度打击。

让我们看一组让友商窒息的数据:

全方位反超,绝非虚言。在 Google 官方公布的雷达图中,Gemini 3 Deep Think 几乎包围了所有竞争对手。曾经的逻辑之王Claude Opus 4.6 在它面前显得反应迟钝,而 GPT-5.2 更是被远远甩在身后。

一位参与测试的开发者在推特上感叹:以前我们对比模型是用跑分,现在对比 Deep Think,感觉像是在用智商。

它不仅是在做题,它是在思考。官方演示中,Deep Think 展现出的不仅仅是计算能力,更是一种对复杂系统的多维理解力——这也为它在现实物理世界中的惊人表现埋下了伏笔。

如果说前面的跑分只是学霸的自我修养,那么接下来的实战表现,才真正让人感受到了Gemini3 Deep Think 对物理世界的降维打击。

它不再只是一个能聊天的 Bot,它开始具备了工程师的直觉和设计师的手眼。

最令人震撼的一幕,发生在谷歌 VP 的一个副业项目中:他随手画了一张极其实际的、甚至有些潦草的笔记本电脑支架草图,扔给了 Deep Think。 Deep Think 没有废话,它不仅仅是“看懂”了这张图,而是瞬间化身为一名资深工业设计师。它分析了草图结构,自动补全了物理细节,直接渲染出了一个高保真、可落地的 3D 模型方案。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

除了懂物理,的审美也在线。Simon Willison 为了刁难它,发出了一个离谱指令:“生成一张鹈鹕骑自行车的 SVG 矢量图”。 Deep Think 并没有像以往的模型那样生成一团乱码,而是画出了一张线条流畅、结构合理的矢量图。 Simon 看完直接炸了

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

既然基础题难不倒它,Simon 决定加大难度。结果 Deep Think 在处理复杂的几何图形和矢量路径时,依然表现得游刃有余。 只需一张图、一个提示词,它就能深入思考,提供几个你从未设想过的设计方案。

对于产品经理和设计师来说,这意味着什么? 这意味着“想法即产品”的时代真的来了。AI 开始理解空间、理解结构、理解物理约束——这才是通往 AGI 的必经之路。

画图、写代码还在我们可以理解的范畴,那么 Gemini 3 Deep Think 在科研领域的表现,则让人感到一丝畏惧。

打开网易新闻 查看精彩图片

而在杜克大学,Wang Lab 的科学家们则被它的“创造力”震惊了。为了优化一种复杂晶体的生长制造方法,Deep Think 不仅分析了现有数据,还成功设计出了一种生长大于 100 μm 薄膜的全新配方。 这个精确目标,在此前的方法中几乎难以实现。它不仅给出了方案,还预测了结果,直接让物理零部件建模加速了十倍。

打开网易新闻 查看精彩图片

这意味着什么? 这意味着在科学发现的领域,AI 已经从整理资料进化到了产出新知。对于科研人员来说,它既是最好的搭档,也是最强的对手。

Google AI Ultra 订阅用户即刻起就能在 Gemini 后台体验新版 Deep Think。同时,谷歌首次通过 API 向部分研究人员、工程师和企业开放了这一能力。

去年,Deep Think 还需要专门版才能解决数学难题;而今天,通用版的它已经能在 Codeforces 上虐杀人类选手,在实验室里指导科学家做实验。

如今,巨大的压力球被狠狠抛回给了 OpenAI。面对谷歌这记直击痛点、甚至可以说是“羞辱级”的 SOTA 回击,Sam Altman 手里还藏着什么牌? 传说中的 GPT-5 或者是那个神秘的“Q*”,如果不能拿出超越“自主科研”级别的能力,恐怕很难再复刻当年的 ChatGPT 时刻了。

2026 年的 AI 战争,才刚刚开始。但至少,谷歌 DeepMind 是跑在前方的赢家。