一台笔记本,零API调用,就能跑过云端大模型?Vilius Vystartas最近做了组对照实验:在Mac上本地部署8个模型,用同样的10项Agent编程任务测试,结果让作者自己都不信——跑了两遍确认。
实验设计很直接:所有模型本地运行,无云端、无密钥、无按量计费。对照组是GPT-5.4和Claude Sonnet 4的云端API表现。
打开网易新闻 查看精彩图片
leaderboard第一名是个"小个子":Bonsai 4B经1-bit量化后仅545MB,任务得分80%,超过GPT-5.4的75%。全程本地推理,零网络延迟,速度比Qwen系列快3倍——计算量少了,自然跑得更快。
打开网易新闻 查看精彩图片
4-bit量化的Qwen模型表现同样扎眼。约5GB体积,得分82-83%,与Claude Sonnet 4打平。这不是玩具演示,是正经的生产力工具级别。
更有意思的是量化精度的边际效应。1.7B参数规模下,2-bit(三值)确实比1-bit强:80%对73%。但放大到4B和8B,两者得分同为80%。多出来的那1-bit,磁盘占用翻倍(1.0GB vs 545MB,2.1GB vs 1.1GB),收益为零。Vystartas的结论是:模型越大,1-bit量化越"饱和"——该捕捉的模式都捕捉到了,额外精度成了死重。
这对特定场景意义重大。医疗、金融、政务等强监管领域,数据不出设备本身就是合规刚需。本地部署意味着:无需谈判供应商协议,无需跟踪每次调用的账单,无需担心网络波动。一台断网的笔记本就能跑。
打开网易新闻 查看精彩图片
实验数据已同步至benchmarks.workswithagents.dev,每次运行自动刷新,与云端模型并列对比。
作者原话:"我没指望一个545MB的量化模型能打败前沿云API。但事实如此。"
热门跟贴