一台Mac Studio同时加载谷歌Gemma 4的26B和31B两个版本,本地推理的门槛正在以肉眼可见的速度崩塌。
硬件配置与测试环境
打开网易新闻 查看精彩图片
测试机为Mac Studio M4 Max,128GB统一内存。通过Ollama(本地大模型运行框架)同时拉起两个模型,无需云端API调用。
原文作者未公开具体跑分数据,但"side by side"(并排运行)这个操作本身已说明:消费级硬件正在吃掉曾经需要A100集群的负载。
为什么这件事值得关注
打开网易新闻 查看精彩图片
Gemma 4是谷歌4月发布的开源模型系列,26B和31B属于同代不同规格。能在单机上并行对比,意味着开发者可以零成本做模型选型——不再需要向云厂商预充值,不再受限于推理配额。
128GB内存看似奢侈,但对比云端A100实例的月租,这台机器的成本回收周期可能短得惊人。
本地推理的临界点到了吗?
去年这个时候,70B模型还是数据中心的专属。现在31B可以跟26B并排跑,明年会不会出现单机跑满血版的情景?当模型压缩和硬件升级形成双向奔赴,云厂商的推理定价权还能撑多久?
热门跟贴