打开网易新闻 查看精彩图片

新智元报道

编辑:好困 桃子

【新智元导读】谷歌DeepMind深夜扔出核弹,下一代Gemini 3.1 Pro正式登场。在公认的最难ARC-AGI-2测试中,它拿下最高分直接看呆硅谷,推理狂飙2倍,直接把Claude 4.6拉下王座。

Gemini 3 Pro之后,谷歌DeepMind终于祭出杀招!

刚刚,下一代旗舰模型Gemini 3.1 Pro深夜炸场,直接刷爆全领域的SOTA,成为AI新王。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Deep Think之后,清华校友姚顺宇也参与了Gemini 3.1 Pro的研发

这一次,Gemini 3.1 Pro实现了大模型推理能力的史诗级飞跃。

在极为严苛的ARC-AGI-2测试中,它一举斩获77.1%的高分,性能飙升至上一代3.0 Pro的两倍有余

外加接近满分(98%)的ARC-AGI-1,不管是思考拉满的Claude Opus 4.6,还是特调版的GPT-5.2,通通都被踩在了脚下。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

从下方的SVG对比测试中,便能直观感受到3.1 Pro与3 Pro之间悬殊的实力代差。

打开网易新闻 查看精彩图片

在编程和推理领域,Gemini 3.1 Pro同样一骑绝尘,全面碾压Sonnet 4.6、GPT-5.2。

在AAII综合评测中,3.1 Pro强势登顶,不仅总分领先Claude Opus 4.6足足4分,API调用成本更是不到一半

打开网易新闻 查看精彩图片

今天起,Gemini 3.1 Pro已正式在Gemini和NotebookLM中上线。开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验。

打开网易新闻 查看精彩图片

如今,硅谷的AI战局已然变天,重量级玩家仅剩下谷歌DeepMind和Anthropic「硬碰硬」。

此前曾风头无两的OpenAI,似乎正逐渐失去在这片主战场上的主动权。

Gemini 3.1 Pro深夜突袭

全能SOTA成绩翻倍

作为谷歌迄今为止最强悍的模型,3.1 Pro在3 Pro的基础上实现了全面跨越。

它不仅具备原生的全模态输入能力,更支持高达100万Token的超长上下文

打开网易新闻 查看精彩图片

在业界最为关注的性能对标中,Gemini 3.1 Pro展现出了令人窒息的统治力。

在人类最后考试(HLE)中,Gemini 3.1 Pro在零工具辅助下拿下了44.4%的成绩,将GPT-5.2(34.5%)和Opus 4.6(40.0%)逼到了墙角。

在ARC-AGI-2测试中,Gemini 3.1 Pro以77.1%的逆天成绩一骑绝尘,把刚刚登顶没两天的Opus 4.6(68.8%)甩在了身后。

更让人震撼的,是它在代码和AI智能体领域的跨越式进化。

  • 在LiveCodeBench Pro中,狂砍2887的Elo积分,断层领先同侪;

  • 在Terminal-Bench 2.0中,凭借68.5%的得分压制了专攻代码的GPT-5.3-Codex(64.7%);

  • 在APEX-Agents中,更是以33.5%的成绩傲视群雄,相比之下,Opus 4.6得分为29.8%,而GPT-5.2仅有23.0%。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

除了硬核推理,Gemini 3.1 Pro在长篇大论的处理上也大秀肌肉。

在MRCR v2的128k长上下文测试中,它直接拿下了84.9%的高分。

更可怕的是,它独家支持了1M Token的终极测试并取得26.3%的成绩,而同台竞技的GPT-5.2和Opus 4.6在这个级别上甚至直接显示「不支持」。

打开网易新闻 查看精彩图片

更重要的是,相较于上一代,3.1 Pro在幻觉率上大幅下降。

打开网易新闻 查看精彩图片

手搓神级应用,这才是杀手级AI

3.1 Pro带来的不仅是跑分上的碾压,更是逻辑推理能力的全面进化。

现在,它不仅能攻克极度棘手的逻辑难题,更在实际落地应用中展现出了令人惊艳的生产力重塑能力。

不论是将晦涩的概念转化为直观图解,把海量数据浓缩成清晰的图表,还是让天马行空的创意直接变成现实,3.1 Pro都能轻松胜任。

打开网易新闻 查看精彩图片

  • 基于代码的动画

只需一段简单的文本提示词,3.1 Pro就能直接生成可无缝嵌入网页的SVG动画。

最绝的是,这些纯代码构建的动画不仅支持无限放大且绝对清晰,它的文件体积相比传统视频更是小得令人难以置信。

  • 整合复杂系统

强大的推理能力还让3.1 Pro彻底打破了复杂API与人性化设计之间的壁垒。

比如,它能直接构建出一个实时的航天数据看板,完美接入公开的遥测数据流,将国际空间站的实时运行轨迹清晰地展现在你眼前。

  • 交互设计

3.1 Pro甚至能用纯代码编写出极其复杂的3D椋鸟群舞特效,为你打造一整套沉浸式体验。

在这套系统中,你可以通过手势追踪技术实时「指挥」鸟群,同时还能听到随着鸟群动态实时演变的生成式配乐。

这绝对是研究人员和设计师开发多模态交互界面原型的一大利器。

更有趣的是,3.1 Pro还能将经典的文学主题转化为真正能跑的精美代码。

比如让它为《呼啸山庄》设计一个现代风格的个人主页,模型不仅精准捕捉了原著压抑深沉的氛围基调,还顺势生成了一个极简且充满现代感的界面,可谓是完美拿捏了主角的灵魂底色。

全网惊艳首测,统治SVG

谷歌UX工程师Michael Chang直接上手,用3.1 Pro模拟复杂的城市规划,瞬间生成并设计出了一个全新的城市鸟瞰拓扑。

打开网易新闻 查看精彩图片

仅仅输入一句话的Prompt,3.1 Pro便在短短3分钟内,搓出了一个长达11秒SVG动画。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

在另一个SVG测试中,它生成的「海豹顶皮球」在视觉表现力上也堪称惊艳。

打开网易新闻 查看精彩图片

AI大牛Simon Willison在测试中,让3.1 Pro在5分钟内生成了一个可以清晰勾勒出腿的鹈鹕SVG。

打开网易新闻 查看精彩图片

在3D空间推理方面,3.1 Pro也是新SOTA。

打开网易新闻 查看精彩图片

3.1 Pro生成的3D像素版宝可梦,可比3.0 Pro强太多了。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

另外,3.1 Pro还能生成最佳的交互式动画,展示一颗种子从发芽到长成大树的全过程。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

进化没有终点,只有更强的下一幕

今天起,Gemini 3.1 Pro预览版正式发布,这仅仅是一个新的开始。

谷歌表示,从去年11月至今,用户真实的反馈,都加速了每一次的研发迭代。

打开网易新闻 查看精彩图片

Gemini 3.1 Pro深夜突袭,是对AI行业格局的又一次重塑。

谷歌 DeepMind 用这种近乎「肌肉秀」的迭代速度告诉世界——

在通往AGI的深水区,只有硬件算力与算法深度耦合的玩家,才能拿稳下半场的入场券。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

https://x.com/Google/status/2024519455389192204?s=20

https://deepmind.google/models/model-cards/gemini-3-1-pro/

打开网易新闻 查看精彩图片