谷歌Gemma 4系列最近放出一组让人意外的数据。最小的1.5GB版本在竞赛级数学测试里拿到37.5%的准确率,这个体积通常连基础推理都吃力。

关键在MoE架构的路由机制。不是每层都激活全部参数,而是动态选择专家子网络。小模型靠这个 trick 用更少显存干更重的活。

打开网易新闻 查看精彩图片

选型建议很现实:本地跑看显存,云端部署看吞吐量。1.5GB适合边缘设备,17B版本才是生产环境的安全牌。完整技术细节已公开。