谷歌Gemma 4被扒出本地运行真相：27B参数吃掉48GB显存

薛定谔的BUG

2026-04-09 18:17 ·北京

谷歌上周刚发Gemma 4，号称"单卡跑27B"的轻量化模型。我本地部署完，风扇转得像直升机——48GB显存直接吃满，这哪是轻量化，分明是显存刺客。

官方文档藏着一句小字：INT4量化版才能单卡跑。但默认推的是BF16精度，完整版需要双卡A100。换句话说，普通玩家看到的"本地可跑"，和实际能用的版本，中间差着两万块钱硬件。

更微妙的是速度。27B在RTX 4090上每秒8个token，写段邮件要等半分钟。作为对比，同显存占用下，Llama 3.1 70B的量化版能跑到15token/s。谷歌这刀法，精准砍在"能跑"和"能用"的缝隙里。

社区里有人翻出Gemma 4的技术报告脚注：「INT4精度下部分数学任务准确率下降12%」。这才是没人说的真相——你要么买双卡，要么接受一个"不太聪明"的版本。轻量化叙事，从来都是硬件厂商的共谋。

目前Hugging Face评论区最高赞是："感谢谷歌，让我意识到云端API其实挺便宜的。"

热门新闻