文丨苏扬
编辑丨徐青阳
2月13日,谷歌发布Gemini 3 Deep Think推理增强版本,这一“推理模式”专为科学研究和工程应用设计,旨在拓展智能系统在复杂任务中的能力边界。
新版本在Gemini 3架构基础上升级了推理机制,引入“推理时计算”(Inference-time Compute),能够在处理复杂逻辑和系统级问题时进行多步骤推演,同时提高结构一致性验证和工程任务求解的准确性。
考虑到Deep Think在处理问题时需调用庞大的后台算力资源,谷歌设定了差异化的付费规则:
对于追求极致产出的个人专业用户,Deep Think已正式纳入最高档的Google AI Ultra 计划。订阅者需支付249.99美元/月(约合人民币1800 元),即可享受不限次数的深度推理权限、30TB超大存储空间以及算力响应的最高优先级。
面向开发者和企业的API接入,按使用量计费:输入百万tokens收费2美元,输出百万tokens收费12美元。
Gemini 3 Deep Think的技术原型曾在2025年7月的国际数学奥林匹克竞赛(IMO 2025)中一战成名。
当时,该模型在4.5小时的规定时间内,利用纯自然语言推理完成了6道极难题目中的5道,斩获35分(达到金牌选手水平)。与以往需要将题目翻译成计算机代码的AI不同,Deep Think证明了AI可以像人类数学家一样,直接通过逻辑推演攻克顶级数学难题。
如今正式发布的Gemini 3 Deep Think推理增强版本,在继承这一顶尖推理基因的基础上,进一步实现了跨学科的泛化:
在Codeforces竞技编程平台上,模型取得3455 Elo的评分,稳居“Legendary Grandmaster”等级。这一评分区间意味着其在复杂算法设计与高难度问题求解上,已处于全球顶尖选手之列。
在被视为通用人工智能(AGI)试金石的ARC-AGI-2测试中,Deep Think在无联网条件下取得了84.6%的创纪录成绩,证明该模型已摆脱对语料库的单纯依赖,实现了真正的少样本抽象归纳与逻辑发现。
针对更高难度的跨学科挑战,Deep Think在人类最终考试(Humanity's Last Exam, HLE) (48.4%)与CMT Benchmark(50.5%) 中同样表现出色。
无论面对深奥的跨学科悖论还是高阶物理推演,模型都展现出极强的结构一致性与逻辑韧性。
支撑这些数据的,是Gemini 3 Deep Think推理范式的质变。
不同于传统模型“脱口而出”的生成机制,Deep Think引入了“推理时计算”模式。在输出前,它会在内部构建并模拟多种解法路径,执行实时的一致性自检。一旦监测到前提冲突或逻辑断层,系统会立即执行逻辑回溯并重组推演链条。
这种“慢思考”机制,标志着AI正式从“对话工具”进化为“科研合伙人”,为严谨的科学研究与复杂的工程任务提供了确定性更高的智力支持。
02 官方演示:推理模式覆盖科研与工程全流程
谷歌通过多项演示展示了Deep Think在科研与工程领域的实际应用。
在科研场景中,罗格斯大学数学家Lisa Carbone使用Deep Think审阅一篇高度专业的数学论文。
Carbone的研究涉及高能物理领域,旨在探索将爱因斯坦引力理论与量子力学桥接的数学结构。在这个训练数据非常稀缺的领域,Deep Think发现了一处细微的逻辑缺陷,而这一问题此前甚至未被同行评审识别。模型能够将跨文档信息整合到统一的推理网络中,对公式和结论进行一致性判断,并生成标注和分析报告供研究者参考。
这标志着AI从“对话工具”逐步转向“科研合伙人”,并通过Aletheia(谷歌内部用于数学探索的专业智能体架构)等系统,实现从辅助检索向自主逻辑发现的跨越。
在杜克大学,Wang Lab利用Deep Think优化复杂晶体生长的制造方法,以助力潜在半导体材料的研发。Deep Think设计出一套可生长厚度超过100微米薄膜的实验方案,达到了以往方法难以实现的精准目标,为材料研发提供了高效可行的实验路径。
在工程应用中,Anupam Pthak——谷歌Platforms and Devices部门研发负责人、前 Liftware CEO——使用Deep Think加速物理组件设计。用户上传复杂机械结构的手绘草图后,模型能够自动识别空间拓扑关系、几何约束及关键尺寸,并生成可执行建模脚本,支持OpenSCAD与Python格式。
整个过程包括几何关系解析、尺寸推算、连接关系建模以及最终输出文件生成。官方演示中,生成的脚本直接驱动3D打印设备,输出符合设计要求的实物模型。
此外,Deep Think在多文件系统级代码分析中也展现了能力。模型可以识别变量引用关系、函数调用依赖及潜在边界条件问题,并提供可操作的修改建议。演示强调,模型能够处理复杂工程项目的整体架构,为系统设计和代码验证提供可靠参考。
官方演示的亮点在于跨场景统一应用:无论是科研论文分析、材料实验设计、工程建模,还是复杂代码系统验证,Deep Think都可以通过同一条推理链条完成逻辑推演和结果输出,为科研和工程任务提供一套高效、统一的智能工具。
03 API与行业集成:科研与工业的深度接入
随着Deep Think发布,Gemini API早期访问计划(Early Access Program,EAP)同步启动。企业与科研机构可以将模型接入内部数据库,用于电路逻辑一致性检查、数学推导辅助验证、实验数据结构分析以及软件系统边界条件排查。
谷歌表示,将优先支持能源建模、新材料研发和生物医药领域的科研与工业团队。
谷歌官方尚未公布完整开放时间表及后续功能扩展计划,但通过早期访问计划,相关团队将能够率先体验Deep Think在复杂科研和工程项目中的推理能力。
(特约编译无忌对本文亦有贡献)
热门跟贴