128GB内存能同时跑两个大模型？实测来了

硅屿手记

2026-04-15 08:49 ·北京

一台Mac Studio同时加载谷歌Gemma 4的26B和31B两个版本，本地推理的门槛正在以肉眼可见的速度崩塌。

硬件配置与测试环境

测试机为Mac Studio M4 Max，128GB统一内存。通过Ollama（本地大模型运行框架）同时拉起两个模型，无需云端API调用。

原文作者未公开具体跑分数据，但"side by side"（并排运行）这个操作本身已说明：消费级硬件正在吃掉曾经需要A100集群的负载。

为什么这件事值得关注

Gemma 4是谷歌4月发布的开源模型系列，26B和31B属于同代不同规格。能在单机上并行对比，意味着开发者可以零成本做模型选型——不再需要向云厂商预充值，不再受限于推理配额。

128GB内存看似奢侈，但对比云端A100实例的月租，这台机器的成本回收周期可能短得惊人。

本地推理的临界点到了吗？

去年这个时候，70B模型还是数据中心的专属。现在31B可以跟26B并排跑，明年会不会出现单机跑满血版的情景？当模型压缩和硬件升级形成双向奔赴，云厂商的推理定价权还能撑多久？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴