百万Token窗口实测：Gemini 3.5 Flash能吞下整份代码库了

灰度测试中

2026-05-25 03:39 ·北京

Google I/O 2026上，Gemini 3.5 Flash正式发布。100万token上下文窗口——这个数字出现在每篇报道里，然后大家继续划向下一条新闻。

它听起来像参数表上的马力数字：700匹，很厉害。但你到底开在哪条路上？

我想让它具体一点。3.5 Flash是3.5系列首个正式版模型，发布即GA，没有preview标签，稳定可用。官方基准测试显示，它在几乎所有测试中都超过Gemini 3.1 Pro，速度是后者的4倍。这是Flash系列的一贯策略：牺牲部分极端复杂任务的上限，换取日常场景的速度和成本优势。

我实际测了一下：3.1 Pro需要8-10秒的请求，3.5 Flash 2-3秒返回。规模化之后，这就是"交互工具"和"批处理作业"的区别。

上手只需要三分钟。pip install google-genai，从AI Studio领一个免费API key，不需要绑卡就能测试。

100万token到底能装什么？大约75万单词。相当于：一个中等规模Web应用的完整源码；一个活跃工程频道六个月的Slack导出记录；一份300页的法律协议及其全部引用附件；一整年的客服工单。

以前，要对完整代码库做推理，你得切块、嵌入、检索相关片段，然后祈祷检索没漏掉关键信息。现在，直接发过去。一次调用，模型同时看到全部内容。

一个可能得罪人的观点：大多数RAG管道的复杂设计，都是对上下文窗口不足的妥协。100万token不会彻底消灭RAG，但能消除开发者实际构建的应用中，很大一部分检索问题。

我跑了一个真实实验：把整个项目喂给3.5 Flash，让它做结构化安全审查。遍历目录、读取指定后缀的文件、拼接成完整文本，一次请求发过去。模型检查SQL注入、未验证用户输入、硬编码密钥——这些原本需要多轮检索才能覆盖的跨文件依赖问题，现在单轮可见。

这不是未来场景。API已经开放，免费额度足够跑通原型。剩下的问题是：你的代码库，准备好被一次性看光了吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴