一台Mac Studio同时加载谷歌Gemma 4的26B和31B两个版本,本地推理的门槛正在以肉眼可见的速度崩塌。

硬件配置与测试环境

打开网易新闻 查看精彩图片

测试机为Mac Studio M4 Max,128GB统一内存。通过Ollama(本地大模型运行框架)同时拉起两个模型,无需云端API调用。

原文作者未公开具体跑分数据,但"side by side"(并排运行)这个操作本身已说明:消费级硬件正在吃掉曾经需要A100集群的负载。

为什么这件事值得关注

打开网易新闻 查看精彩图片

Gemma 4是谷歌4月发布的开源模型系列,26B和31B属于同代不同规格。能在单机上并行对比,意味着开发者可以零成本做模型选型——不再需要向云厂商预充值,不再受限于推理配额。

128GB内存看似奢侈,但对比云端A100实例的月租,这台机器的成本回收周期可能短得惊人。

本地推理的临界点到了吗?

去年这个时候,70B模型还是数据中心的专属。现在31B可以跟26B并排跑,明年会不会出现单机跑满血版的情景?当模型压缩和硬件升级形成双向奔赴,云厂商的推理定价权还能撑多久?