开发者们早就习惯了这个妥协:模型越聪明,响应越慢。深度推理需要等待,上线部署往往要在智能和速度之间二选一。Google I/O 2026上,Gemini 3.5 Flash直接挑战了这个假设。
Google这次发布了Antigravity 2.0——一个专为AI智能体设计的独立桌面环境,底层完全跑在Gemini 3.5 Flash上。官方给出的数字很刺眼:每秒处理289个token,把Claude Opus 4.7的67 tps和GPT-5.5的71 tps甩在身后。
但速度只是入场券。真正的问题从来不是模型跑多快,而是能不能把演示视频里的流畅操作,变成企业能放心上线的系统。我们拉来了2026年的几款旗舰模型,用同一套测试标准验货。
实测结果:快是真的快,但长板短板都很明显
Gemini 3.5 Flash的绝对优势在多工具协同场景。MCP Atlas测试的是智能体同时操作多个开发者工具、遇到运行错误时自主修复的能力——这里Gemini拿了第一。对于需要完全无人值守的自动化工作流,这是硬门槛。技术图表解析、数据库路由这些任务也做得漂亮,AA Intel Index综合评分和CharXiv Reasoning测试都有不错的表现。
短板出现在两个地方。一是复杂架构重构:虽然读GitHub issue、生成代码修复(SWE-bench Verified)很顺手,但涉及多文件大规模改写的SWE-bench Pro,还是输给了Claude 4.7 Opus。二是陌生逻辑和复杂界面:面对从未见过的逻辑网格(ARC-AGI-2),以及跨应用桌面UI导航(OSWorld),Gemini偶尔会"迷路",GPT-5.5在这类空间推理上更稳。
还有个意外发现:耐力。GDPval-AA的连续Elo评分追踪的是智能体循环执行任务时多久会卡死,Gemini虽然很强,但纯耐力不如GPT-5.5。Terminal-Bench 2.1的bash语法严格判分、GPQA Diamond的学术难题边缘情况,也会让它偶尔翻车。
Antigravity 2.0的"思考"开关到底是什么?
新功能里有个"Thinking"档位,从Minimal到High可调。从API表现来看,这更像是控制推理token的生成量,而非底层架构的革新。对开发者来说够用了,但别误会成换了新引擎。
热门跟贴