打开网易新闻 查看精彩图片
谷歌上周刚发Gemma 4,号称"单卡跑27B"的轻量化模型。我本地部署完,风扇转得像直升机——48GB显存直接吃满,这哪是轻量化,分明是显存刺客。
官方文档藏着一句小字:INT4量化版才能单卡跑。但默认推的是BF16精度,完整版需要双卡A100。换句话说,普通玩家看到的"本地可跑",和实际能用的版本,中间差着两万块钱硬件。
更微妙的是速度。27B在RTX 4090上每秒8个token,写段邮件要等半分钟。作为对比,同显存占用下,Llama 3.1 70B的量化版能跑到15token/s。谷歌这刀法,精准砍在"能跑"和"能用"的缝隙里。
社区里有人翻出Gemma 4的技术报告脚注:「INT4精度下部分数学任务准确率下降12%」。这才是没人说的真相——你要么买双卡,要么接受一个"不太聪明"的版本。轻量化叙事,从来都是硬件厂商的共谋。
目前Hugging Face评论区最高赞是:"感谢谷歌,让我意识到云端API其实挺便宜的。"