谷歌Gemma 4实测：64K上下文硬限制与50万token/秒吞吐

赛博兰博

2026-05-12 08:30 ·北京

周三下午，一位开发者在调试vLLM时发现了一个容易被忽略的细节——框架默认使用标准精度，而非内存优化的Brain Float格式。这个发现让他重新跑了一遍完整的基准测试，对比两种数据类型的实际表现。

测试对象是谷歌刚发布的Gemma 4（26B-A4B-it），跑在Cloud TPU v6e-4（Trillium架构）集群上。结果验证了这套硬件处理超长上下文的能力，也暴露了一个硬性限制。

先看核心数据。在256并发用户、64K上下文长度下，系统达到了峰值预填充吞吐：498,253 token/秒。即使把并发拉到1024人，总批量约6700万token，吞吐仍能维持在479,760 token/秒。Trillium架构的预填充效率确实突出。

但延迟曲线很说明问题。64K上下文的首次token时间（TTFT），256用户时是20秒，1024用户时飙到74秒。前者还能支撑深度推理或重RAG场景，后者只适合非交互式的批处理任务。

真正卡住脖子的是模型本身。vLLM引擎配置了128K上下文窗口，但Gemma 4这个变体明确拒绝超过65,536 token的请求，返回400错误。64K是当前物理上限，不是配置问题。

对比32K和64K两种上下文长度，单用户TTFT分别是1.3秒和2秒；64用户时是4秒和7.4秒。并发越高，长上下文的延迟惩罚越明显。

目前系统仍在线运行，开放64K窗口。完整测试数据已导出CSV和JSON格式。对于需要处理超长文档的开发者来说，256并发是个甜蜜点——吞吐接近峰值，延迟还在可用范围。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴