Google I/O 2026上,Gemini 3.5 Flash正式发布。100万token上下文窗口——这个数字出现在每篇报道里,然后大家继续划向下一条新闻。
它听起来像参数表上的马力数字:700匹,很厉害。但你到底开在哪条路上?
我想让它具体一点。3.5 Flash是3.5系列首个正式版模型,发布即GA,没有preview标签,稳定可用。官方基准测试显示,它在几乎所有测试中都超过Gemini 3.1 Pro,速度是后者的4倍。这是Flash系列的一贯策略:牺牲部分极端复杂任务的上限,换取日常场景的速度和成本优势。
我实际测了一下:3.1 Pro需要8-10秒的请求,3.5 Flash 2-3秒返回。规模化之后,这就是"交互工具"和"批处理作业"的区别。
上手只需要三分钟。pip install google-genai,从AI Studio领一个免费API key,不需要绑卡就能测试。
100万token到底能装什么?大约75万单词。相当于:一个中等规模Web应用的完整源码;一个活跃工程频道六个月的Slack导出记录;一份300页的法律协议及其全部引用附件;一整年的客服工单。
以前,要对完整代码库做推理,你得切块、嵌入、检索相关片段,然后祈祷检索没漏掉关键信息。现在,直接发过去。一次调用,模型同时看到全部内容。
一个可能得罪人的观点:大多数RAG管道的复杂设计,都是对上下文窗口不足的妥协。100万token不会彻底消灭RAG,但能消除开发者实际构建的应用中,很大一部分检索问题。
我跑了一个真实实验:把整个项目喂给3.5 Flash,让它做结构化安全审查。遍历目录、读取指定后缀的文件、拼接成完整文本,一次请求发过去。模型检查SQL注入、未验证用户输入、硬编码密钥——这些原本需要多轮检索才能覆盖的跨文件依赖问题,现在单轮可见。
这不是未来场景。API已经开放,免费额度足够跑通原型。剩下的问题是:你的代码库,准备好被一次性看光了吗?
热门跟贴