谷歌刚刚发布了Gemini 3 Deep Think的重大升级。这次的卖点不是又一个聊天机器人,而是一个能把草图变成实物的推理引擎。
先看几个硬数据:ARC-AGI-2测试得分84.6%,Codeforces编程竞赛Elo达到3455,相当于全球前0.008%的人类选手水平。国际数学奥林匹克和物理奥林匹克的书面部分都达到了金牌水准。
但真正值得关注的不是这些跑分。
罗格斯大学的数学家Lisa Carbone用它审查了一篇高度技术性的数学论文,Deep Think发现了一个此前通过人类同行评审的微妙逻辑缺陷。杜克大学的Wang实验室用它优化了复杂晶体生长的制造方法,成功设计出了超过100微米的薄膜生长配方。
最有意思的是那个“草图到3D打印”的演示。在餐巾纸上画个支架草图,它能分析结构、建模复杂形状、直接输出可打印的STL文件。这不是在“生成”一个模糊的网格,而是在工程一个可制造的实体。
有人说这是“比特到原子”延迟的坍缩。从前,一个想法变成实物需要经过CAD建模、工程计算、文件转换等漫长流程。现在这个流程被压缩成了一句话的意图声明。
当然,社区的反应很分裂。
一边是兴奋:“硬件原型制作刚刚迎来了它的Stable Diffusion时刻。”另一边是质疑:“谷歌的模型总是跑分惊艳,实际使用两周后就发现各种问题。”还有人吐槽250美元的订阅费和每天10次的使用限制:“我们正在建造数字神明,就为了让中层管理者总结那些本不该开的会议。”
有个细节值得玩味:ARC-AGI-2从发布到基本被“解决”,只用了不到一年。85%的得分在ARC Prize的标准里已经算是攻克了这个基准测试。人类在这个测试上的基线是60%准确率,每道题成本17美元。Deep Think达到了64.6%,每道题成本2.25美元。
这说明什么?AI在特定类型的抽象推理上已经超越了人类平均水平,而且成本更低。
但Reddit上有人提出了一个尖锐的问题:为什么所有新模型都在ARC-AGI-2上大幅提升,却在SWE-bench这样的实际软件工程测试上几乎没有进步?Opus 4.6在ARC-AGI-2上比4.5高了30%,但在SWE-bench上反而退步了1%。
解谜能力和解决真实问题的能力,似乎是两回事。
Deep Think目前只对Google AI Ultra订阅用户开放,API访问需要申请早期测试资格。对于大多数人来说,这仍然是一个昂贵的实验品。但它指向的方向很清晰:AI正在从“回答问题”转向“生成可执行的输出”。
当推理的终点不再是一段文字,而是一个可以拿在手里的东西,游戏规则就变了。
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think
热门跟贴