Gemma 4跑在TPU上：bf16精度换内存值不值

闪存猎手

2026-05-12 08:35 ·北京

做模型部署的人，迟早要面对一个选择题：精度换内存，干不干？

最近有人拿谷歌的Gemma 4（26B-A4B-it）在TPU v6e-4上跑了一圈极限压测，顺便对比了标准精度和Brain Float（bf16）两种模式。结果发现，vLLM默认用的是标准精度，而不是内存更省的bf16——这意味着很多人可能一直在"浪费"显存。

先说硬数据。测试模型是google/gemma-4-26B-A4B-it，硬件是Cloud TPU v6e-4（Trillium架构）。在64K上下文、256并发用户的场景下，系统顶到了每秒49.8万token的预填充吞吐。就算把并发堆到1024人同时在线，总批量约6700万token，吞吐还能维持在47.9万token/秒。

但延迟曲线很说明问题。单用户64K上下文，首token延迟（TTFT）2秒；256用户时涨到20秒；1024用户直接干到74秒。作者的原话是：256人以内"对深度推理或重RAG场景很优秀"，1024人则"只适合非交互式批处理"。

还有个冷知识：vLLM明明配了128K上下文，但Gemma 4这个变体物理上限就是65536 token，超了直接报400错误。所以别被配置参数骗了，64K才是真实天花板。

bf16到底省了多少内存、牺牲了多少精度，原文没给具体数字。但压测本身已经说明问题：在长上下文、高并发的场景下，Trillium的预填充效率确实能打——至于要不要开bf16，得看你缺的是内存还是精度。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴