就在上周谷歌发布 Gemini Deep Think 重大更新后,谷歌于今日正式推出新一代基础大模型 Gemini 3.1 Pro。

谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)在社交平台上确认了这一消息。他表示,Gemini 3.1 Pro 相较前代 Gemini 3 Pro 的 31.1% 提升显著。新模型在处理复杂概念可视化、多源数据整合、创意项目落地等任务时表现更为出色,目前已逐步接入消费者与开发者产品。

去年9月加入谷歌 DeepMind 的清华大学校友、AI 研究员姚顺宇也在社交平台分享了相关进展,并暗示后续还有更强模型正在筹备中。

(来源:X)
打开网易新闻 查看精彩图片
(来源:X)

从“.5”到“.1”的版本策略调整

按照谷歌以往的发布节奏,重大更新多集中在年中(如 Google I/O 大会),且常以“.5”后缀标识中期升级。但此次距离 Gemini 3 Pro 发布仅三个月,便推出了带“.1”后缀的 3.1 Pro,可见谷歌底层技术迭代加速,以及推动最新研究成果落地的节奏调整。

支撑这一节奏的,是新模型在核心推理能力上的提升。关键在于 ARC-AGI(抽象与推理语料库)基准测试。该测试不依赖知识记忆,而是考察模型面对陌生视觉与逻辑谜题时的多步推演能力,被视作衡量 AI 泛化与流体智力的重要参考。

在官方验证的 ARC-AGI-2 测试中,Gemini 3.1 Pro 得分为 77.1%,而数月前的 3 Pro 为 31.1%。横向对比,Anthropic 的 Claude Opus 4.6 得分为 68.8%,OpenAI 的 GPT-5.2 为 52.9%。这一差距说明,大模型在处理非结构化、未见过的推理任务时,正逐步从模式匹配向逻辑推演演进。

(来源:Google)
打开网易新闻 查看精彩图片
(来源:Google)

多项测试占优,细分场景仍存差距

除抽象推理外,谷歌公布的技术文档显示,Gemini 3.1 Pro 在 16 项主流基准测试中,有 12 项位列第一(含并列),覆盖学术知识、科学问答、代码生成、智能体协作及长上下文理解等方向。

在学术与科学能力方面,它在无外部工具辅助的 Humanity's Last Exam(人类终极考试)测试中准确率达 44.4%,在高难度科学知识测试 GPQA Diamond 中得分 94.3%。这两项成绩均以较高幅度优于当前主流竞品,体现出模型在知识储备与逻辑推导上的优势。

(来源:Google)
打开网易新闻 查看精彩图片
(来源:Google)

在开发者关注的代码与工程能力上,Terminal-Bench 2.0(终端操作代理测试)成功率达 68.5%,SWE-Bench Verified(真实 GitHub 问题求解)单次尝试得分 80.6%,与 Claude Opus 4.6 处于同一梯队;LiveCodeBench Pro 的 Elo 评分更是达到 2,887 分,显著领先于 GPT-5.2 的 2,393 分。

在多模态与长上下文理解方面,MCP Atlas(多步骤工作流)得分 69.2%,BrowseComp(代理搜索)85.9%,MMMLU(多语种问答)92.6%;在 128k 上下文的 MRCR v2 检索测试中,与 Claude Sonnet 4.6 并列第一(84.9%)。整体来看,新模型在多个维度展现出较为均衡的能力储备,而非单一维度的"偏科"优势。

尽管综合表现突出,当前大模型赛道已进入差异化竞争阶段,各模型在特定场景下仍各有侧重。

例如在面向实际工程场景的 SWE-Bench Pro 测试中,OpenAI 专为代码优化的 GPT-5.3-Codex 以 56.8% 领先,Gemini 3.1 Pro 为 54.2%;在评估商业流程操作的 GDPval-AA 测试中,Claude Sonnet 4.6 以 1633 分显著高于 Gemini 3.1 Pro 的 1317 分。

此外,在允许调用搜索与代码工具的 HLE 测试中,Claude Opus 4.6 略优于 Gemini 3.1 Pro;而在多模态理解测试 MMMU Pro 中,3.1 Pro 甚至微幅落后于前代 3 Pro。谷歌也未披露该模型的具体参数规模与训练数据细节。

从深度推理到日常应用

此次 Gemini 3.1 Pro 的性能飞跃,源于此前推出的 Gemini 3 Deep Think 模型。后者专攻科学计算与复杂工程,其卓越的推理能力已在国际奥赛等场景中得到实证。Gemini 3.1 Pro 则进一步将这种‘专家级’的核心能力拓展至通用领域,从而能够服务于更广泛的开发与用户需求。

谷歌官方博客列举了若干应用场景:

首先在基于代码的动画生成方面,3.1 Pro 能够直接根据文本提示生成适用于网站的 SVG 动画。由于此类动画由纯代码而非像素位图构成,因此具备无损缩放特性,在任何分辨率下均能保持清晰,且文件体积远小于先前形式。

其次是数据处理场景。 Gemini 3.1 Pro 展现了卓越的“工具使用(Tool Use)”能力。以国际空间站(ISS)轨道追踪为例,模型不仅能自主研读 NASA 复杂的 API 文档、编写数据抓取脚本,还能实时处理回传的流式遥测数据。令人吃惊的是,它能同步调用 D3.js 等可视化库,快速搭建出包含实时经纬度、轨道投影及速度指标的交互式仪表盘。

还有创意编程能力。模型能够深入理解文学名著(如海明威作品),提炼文字背后隐含的风格特征,转换成具体的交互界面细节。例如将简洁有力的短句转化为“极简主义”排版,将硬朗的情感基调映射为“高对比度”配色。最终,这些抽象的美学特征被精准转译为 CSS/HTML 代码。这种跨模态转换能力,使得文字创作者能以极低的成本,将抽象的文学内核注入数字产品的交互界面之中。

最后是深度交互设计。3.1 Pro 能够构建复杂的三维“椋鸟低语”模拟场景。这不仅仅是视觉代码的生成,更是沉浸式体验的营造:用户可通过手势追踪操控鸟群,并聆听随鸟类动作实时变化的生成式乐谱。对于研究人员和设计师而言,这为原型化多感官丰富的界面提供了强有力的工具。

此外,为加速能力落地,谷歌此次采取了分层部署策略。

普通用户可通过更新后的 Gemini 应用体验基础功能;高阶订阅用户在 NotebookLM 平台可独家接入 3.1 Pro 并享受更高调用额度。开发者可通过 Google AI Studio 申请 API 预览权限,Gemini CLI 与 Android Studio 已完成首批适配;企业客户则支持通过 Vertex AI 与 Gemini Enterprise 集成至私有业务流。这种"由浅入深"的推进方式,有助于不同层级的用户按需接入。

目前,3.1 Pro 已以预览版形式上线谷歌代理式开发平台 Antigravity。谷歌表示,此举旨在复杂多步任务场景中进一步验证与优化模型表现,为后续全面推广积累经验。

总体来看,Gemini 3.1 Pro 在推理能力与多维度任务表现上确有提升,尤其在抽象逻辑与代码工程方向优势明显。但大模型竞争已进入"场景适配"阶段,技术选型需结合具体需求理性评估。对于关注成本、稳定性与落地效率的用户而言,持续观察其在真实业务中的表现,或许比基准测试分数更具参考价值。