做模型部署的人,迟早要面对一个选择题:精度换内存,干不干?
最近有人拿谷歌的Gemma 4(26B-A4B-it)在TPU v6e-4上跑了一圈极限压测,顺便对比了标准精度和Brain Float(bf16)两种模式。结果发现,vLLM默认用的是标准精度,而不是内存更省的bf16——这意味着很多人可能一直在"浪费"显存。
打开网易新闻 查看精彩图片
先说硬数据。测试模型是google/gemma-4-26B-A4B-it,硬件是Cloud TPU v6e-4(Trillium架构)。在64K上下文、256并发用户的场景下,系统顶到了每秒49.8万token的预填充吞吐。就算把并发堆到1024人同时在线,总批量约6700万token,吞吐还能维持在47.9万token/秒。
但延迟曲线很说明问题。单用户64K上下文,首token延迟(TTFT)2秒;256用户时涨到20秒;1024用户直接干到74秒。作者的原话是:256人以内"对深度推理或重RAG场景很优秀",1024人则"只适合非交互式批处理"。
还有个冷知识:vLLM明明配了128K上下文,但Gemma 4这个变体物理上限就是65536 token,超了直接报400错误。所以别被配置参数骗了,64K才是真实天花板。
bf16到底省了多少内存、牺牲了多少精度,原文没给具体数字。但压测本身已经说明问题:在长上下文、高并发的场景下,Trillium的预填充效率确实能打——至于要不要开bf16,得看你缺的是内存还是精度。
热门跟贴