打开网易新闻 查看精彩图片

新智元报道

编辑:好困

【新智元导读】Gemini 3.5代号「卡布奇诺」提前曝光,从3.2直接跳级命名!全新24小时Agent「Spark」能替你管邮件、跑任务,甚至不问你就下单花钱。

就在刚刚,Gemini 3.5提前曝光了!

网友Lentils放出最新消息,代号「Cappuccino」的Gemini 3.5 Pro检查点已经开始产出。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

左右滑动查看

而就在几个小时前,传闻还是Gemini 3.2,没想到一下子就替换成了Gemini 3.5。

打开网易新闻 查看精彩图片

从3.2到3.5的跳级命名,谷歌显然想在I/O上讲一个更大的故事。

Gemini大更新,谷歌祭出杀招

前一天,知名爆料人can率先晒出了首批输出。

一个是DualShock 4手柄的交互式蓝图拆解,另一个是鹈鹕骑自行车的矢量插画,自带7维定制面板,车架颜色、光照、头饰、篮筐内容、蹬车速度全部实时切换。

打开网易新闻 查看精彩图片

从截图来看,这已经不是简单的SVG了,而是一个prompt生成的完整交互式Web应用!

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Abacus.AI CEO Bindu Reddy随后放出的数据更炸——

3.2 Flash在编码和推理上达到GPT-5.5的92%,成本却便宜15到20倍。

打开网易新闻 查看精彩图片

不仅如此,谷歌全新的全时Agent「Gemini Spark」也被扒了出来。

可以看到,它不仅能全天候待命,帮你管邮件、跑任务,甚至可能不问你就替你下单。

打开网易新闻 查看精彩图片

然而就在此时,Alex Heath的独家爆料,却狠狠地泼了一盆冷水——

新款Gemini的性能,最多只能追平OpenAI的GPT-5.5……

打开网易新闻 查看精彩图片

一个prompt四个方案,Gemini「懒癌」治好了

先看好消息。

以前Gemini生成SVG,社区最常用的吐槽就一个字,「懒」。给一个prompt,出一个敷衍结果。

但这次不一样了。

网友Lentils只用了一个简单提示,Gemini就直接出了4个风格各异、细节拉满的Robot SVG。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

左右滑动查看

同期泄露的3.5 Flash也印证了这个趋势。

LM Arena的匿名跑分显示,Flash在SVG生成、交互式3D编码和动画处理上已经超过了3.1 Pro。

打开网易新闻 查看精彩图片

换句话说,谷歌的蒸馏加稀疏化技术正在收获回报,把前沿模型压成了轻量版,质量断崖却没出现。

帮你管邮件、替你花钱,谷歌Agent胆子够大

同一天的另一个重磅泄露是「Gemini Spark BETA」。

根据爆料,Spark的定位是「你的日常AI智能体,全天候待命」。

一个24小时全时运转的AI Agent,帮你处理收件箱、执行在线任务、管理多步骤工作流。

打开网易新闻 查看精彩图片

Spark的数据来源清单让人倒吸一口气。

已连接的Google应用、技能模块、聊天记录、定时任务、你登录的网站、Personal Intelligence、位置信息。

Gemini会把你的姓名、联系方式、文件、偏好等信息分享给第三方来完成任务。

此外,为了保持会话连续性,系统还会保存远程浏览器数据,包括登录凭证和远程代码执行数据。

不过值得注意的是,Spark虽然设计上会在敏感操作前征求许可,但它「可能在未经询问的情况下分享你的信息或完成购买」。

也就是说,它可能不问你就下单,也可能不问你就把信息分享出去。

打开网易新闻 查看精彩图片

Spark的前身是谷歌内部代号「Remy」的Agent升级版,此前只面向AI Ultra订阅用户。

从Remy到Spark,Gemini的Agent从「一个功能」一步升格为「24/7的数字生活管家」。

这正面对标Anthropic即将发布的托管Agent Conway,以及OpenAI已经上线的24/7 Agent平台。

打开网易新闻 查看精彩图片

半年前的榜首,半年后摸不到前沿的边

好消息到此结束。

根据Alex Heath从多个信源处得到的确认,下周二发布的新Gemini,大致落在GPT-5.5这个档位,距离Mythos还有明显差距。

打开网易新闻 查看精彩图片

想当初,刚发布的Gemini 3凭借着LMArena 1501 Elo,几乎扫了所有主流排行榜第一。

半年过去,GPT-5.5、Opus 4.7、Mythos相继发布后,格局已经被彻底改写。

英国AI安全研究所的评测显示,Mythos是第一个同时通过其两套网络安全测试范围的模型,GPT-5.5只通过了一套。

AISI甚至承认,评测框架已经快跟不上Mythos的能力了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

回到谷歌这边,根据网友Fandu扒到的模型选择器的最新界面,新款Gemini很可能原生支持MCP第三方工具接入,Thinking模式也将全面重构。

可以看到,除了3.1 Flash-Lite、3 Flash、3.1 Pro这几个大家熟知的模型外,还多了一个从未见过的分类「MCP Tool Testing」,也就是「可用于MCP工具测试的模型」。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

思维模式也从原来的独立Thinking模式,变成了全局开关,分Standard(适合大多数问题)和Extended(求解复杂问题)两档。

打开网易新闻 查看精彩图片

编程,最让DeepMind焦虑的战场

Heath的爆料中,编程部分的措辞最重。

他说,DeepMind内部正面临着切实的压力,尤其是在编程能力方面需要迎头赶上。

追赶目标很明确,Anthropic。过去一年,Claude在开发者群体中坐稳了默认选项。

新Gemini会包含编程改进,但在Heath的信源里,没有一个人认为会带来质变。

打开网易新闻 查看精彩图片

谷歌的AI编程平台Antigravity,内部用得很多,但在外部市场一直没能突围。

4个月6%的开发者采用率,对一个IDE来说不算慢,但跟Claude Code和Codex的势头比差距明显。

问题出在哪?

XDA的一篇月度评测试了三个工具做同一个任务。

Claude Code第一次就准确理解了复杂创意提示。而Antigravity的输出却像是用「微软画图」做出来的涂鸦。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

左右滑动查看

此外,Antigravity的定价策略也让开发者头疼。

谷歌已经多次调整定价模型,从免费预览到信用点制度,社区论坛上关于额度用完没提醒的抱怨一直没断过。

但最为关键的在于,如今AI编程已经彻底出圈了。

不管Claude Cowork,还是OpenAI的Codex,都能让不会写代码的人用得飞起——

产品经理用自然语言描述需求,直接得到可运行的原型。设计师把Figma稿丢进去,拿到前端代码。

然而到目前为止,谷歌都没有任何产品能够进入这个对话。

不过,知名大佬Haider的评论倒是提供了另一个视角。

谷歌可能并不打算通过跟别人跑同一条赛道来取胜,他们更大的重心在于打造一个更强大的多模态系统,而这需要时间。

打开网易新闻 查看精彩图片

通往ASI的飞轮,三家同时踩油门

虽然模型追不上,但谷歌有10亿级分发入口和全时Agent。

Spark一旦铺开,用户的邮件、日程、购物、浏览数据将反哺Gemini的下一代训练。

这是OpenAI和Anthropic都很难复制的打法。

打开网易新闻 查看精彩图片

但竞争对手没有闲着。

就在昨天,OpenAI给Codex追加ultrafast模式,速度提升2-3倍,还祭出补贴战,30天内切换的企业2个月免费。3小时内2000名开发者响应。

Anthropic同步放出Opus 4.7 Fast模式,Claude Code额度提升50%。

这场补贴战表面上是抢开发者,底层逻辑比这深得多。

GPT-5.6的开发几乎可以确定是在GPT-5.5的深度参与下进行的。 AI写的代码反哺AI的训练,谁掌握了编程工具的用户,谁就掌握了这个循环的加速器。

打开网易新闻 查看精彩图片

三家在三条赛道上同时踩油门。

OpenAI靠迭代速度碾压,三周一个新版本。Anthropic靠模型质量封神,Mythos重新定义了前沿。谷歌靠分发和Agent包抄,把AI塞进10亿人的手机里。

没有人在减速。通往ASI的飞轮,已经开始自转了。

打开网易新闻 查看精彩图片

而对于每天都在用这些工具的人来说,这场三巨头的军备竞赛,可能是2026年最划算的一件事。

补贴在加码,额度在提升,模型在变强,价格在下降。

唯一的问题是,你的工作流押对了赛道吗?

参考资料:

https://x.com/alexeheath/status/2054747125616169229

https://www.testingcatalog.com/google-prepares-gemini-spark-ai-agent-ahead-of-i-o-launch/

https://x.com/Lentils80/status/2054628116094501377