昨天晚上刷推特,突然刷到 Google 官博的推送——Gemini 3.1 Pro 正式发布了。
说实话,我第一反应是有点懵。上周 Google 才刚刚更新了 Gemini 3 Deep Think,专门面向科学研究和工程领域;这才过了几天,又出来一个 3.1 Pro。这节奏,我感觉 Google 是真急了。
先说背景:这个版本从哪里来
在聊 3.1 Pro 本身之前,我觉得有必要梳理一下 Gemini 3 系列的脉络,不然容易搞混。
去年 11 月,Google 发布了 Gemini 3 Pro,那是这一代的基础版本。今年 1 月,他们又推出了带有 Agentic Vision 的 Gemini 3 Flash,主打多模态 Agent 能力。两周前的 Gemini 3 Deep Think,则是专门为硬核科研场景打磨的推理型模型。
那 3.1 Pro 是什么?官方的定位是——让 Deep Think 那一代突破性推理能力,真正落地到日常应用里。换句话说,3.1 Pro 是把尖端智能"下放"给普通用户和开发者用的那一层。
这个逻辑我觉得挺聪明的。顶层的科研模型跑通了,然后把核心推理能力打包进一个更通用、更易用的版本。这不就是 OpenAI 当年 o1 到 o1-mini 的路子嘛?Google 也在走这条路。
ARC-AGI-2 这个分数,到底意味着什么
官方发布文章里,我最在意的一个数字是:ARC-AGI-2 基准测试得分 77.1%。
可能很多人不熟悉这个基准。我简单解释一下:ARC-AGI(Abstraction and Reasoning Corpus)是由 AI 安全研究员 François Chollet 设计的一套测试,专门用来评估模型面对从未见过的新逻辑规律时的推理能力。它的难点在于,这类题目没办法靠死记硬背训练数据来应付,必须真正"想明白"才能答对。
ARC-AGI-2 是难度更高的升级版。人类在这套测试上的表现大概在 80% 左右。
77.1%,几乎接近人类水平了。
更关键的是,官方说这个分数是 Gemini 3 Pro 的两倍以上。从 3 Pro 到 3.1 Pro,推理能力翻了一番——就一个小版本号的跨度,这个提升幅度不小。
第一个测试:复杂代码生成
让它直接从文本描述生成一个动态 SVG 动画。具体要求是:做一个粒子碰撞的物理模拟,粒子之间有弹性碰撞,颜色随速度变化,还要有边界反弹。
3 Pro 之前也做过类似尝试,出来的东西基本能跑,但物理逻辑经常有 bug,速度和颜色的映射也经常搞错。3.1 Pro 这次第一次生成就基本对了,只做了一处小改动。更重要的是,它生成的代码注释很清晰,逻辑分层也合理,不是那种一眼看上去密密麻麻、完全不知道从哪里下手修改的代码。
第二个测试:跨领域知识综合
扔给它一篇关于量子纠错码的学术论文摘要,然后让它帮解释这个技术对当前云计算架构可能产生的影响,并用一个非技术背景的 CTO 能听懂的方式呈现。
这类题目其实很难——它需要同时理解量子计算基础、现有云架构的局限、以及商业决策者的认知框架,然后把三者串起来。3.1 Pro 给出的回答让我有点意外,它没有堆砌术语,而是用了几个生动的类比,把量子纠错码的核心思想跟传统 RAID 磁盘容错做了对比,还点出了时间线预判和现阶段该关注什么。这个角度我自己写的话可能也会想到,但它的表达比我想象中更有层次感。
第三个测试:创意编码
官方博客里提到了一个例子——让模型为《呼啸山庄》设计一个现代个人作品集网站。我觉得这个思路挺好玩的,就自己也试了一个:让它为卡夫卡的《变形记》设计一个沉浸式网页体验。
结果让我觉得惊喜的地方在于,它不是简单地"绿色调+虫子图标"这种字面理解,而是从疏离感、官僚压迫、身份认同瓦解这些主题出发,设计了一个整体视觉语言——字体偏向机械感、布局故意不对称、颜色方案是灰棕色系。这说明它在做创意决策的时候,真的是在理解文本,而不只是在匹配关键词。
这次发布覆盖的平台挺全的
从官方公告来看,3.1 Pro 的铺开力度比以前大了很多,这次同步覆盖了好几条线:
开发者方面,可以通过 Gemini API 在 Google AI Studio 里直接体验 Preview 版本,同时也接入了 Gemini CLI 和 Google 的 Antigravity 智能体开发平台,还有 Android Studio。企业用户则可以在 Vertex AI 和 Gemini Enterprise 里用到。普通消费者的话,Gemini 应用和 NotebookLM 都已经开始滚动更新,但目前仅限 AI Pro 和 Ultra 订阅用户优先体验。
我个人用的是 AI Studio 的开发者通道,体验还算流畅,响应速度比预期快。
我的一些思考
说完功能,我想聊聊这件事背后的一些更大的东西。
这两个月,Google 的发布节奏明显加快了。Gemini 3 Flash、Deep Think、3.1 Pro……一个接着一个。这种频率,让我想起了 OpenAI 在 GPT-4 时期的状态。那时候每隔几周就有新东西,外界搞不清楚路线图,但你能感受到那种"在赶时间"的劲头。
现在 Google 也是这种感觉。
这当然不是坏事。对用户来说,竞争越激烈,我们用到的东西就越好。但我也有一个担忧:当发布节奏太快的时候,版本之间的能力差异就变得不好把握。3 Pro、3.1 Pro、Deep Think,这三者之间的边界在哪里?什么场景用哪个?这个问题对于普通用户来说其实已经开始有点复杂了。
另外,ARC-AGI-2 接近人类水平这件事,我觉得不应该轻描淡写地过去。这个基准本来就是 Chollet 设计来专门测"真实推理"的,不是那种可以通过大量训练数据"刷分"的类型。77.1% 意味着什么,现在还很难下定论,但至少说明模型在逻辑归纳和新情境适应方面有了实质性提升,而不只是记忆力变强了。
还有一点值得关注:官方说 3.1 Pro 目前是 Preview 状态,正式 GA(General Availability)还会"很快"到来。Preview 阶段的意义在于,他们还在收集反馈,特别是在 Agentic Workflow(自主任务执行流)方面继续打磨。这说明 Google 的下一个重点方向可能不只是"更聪明",而是"更能自主干活"。
最后说几句
Gemini 3.1 Pro,在我看来是一次扎实的升级。推理能力的跃升有基准支撑,实际体验也确实比 3 Pro 好了一个台阶。对于开发者和重度用户来说,现在就可以去 AI Studio 申请 Preview 权限试试看,值得花时间摸一摸。
当然,它也还不是"完美"的。我在几次复杂的长上下文任务里还是能看到它迷失方向、绕圈子的情况。这些边界在哪里,还需要继续用、继续测才能搞清楚。
热门跟贴