545MB本地模型跑赢GPT-5.4，无需联网

字节漫游指南

2026-05-11 11:49 ·北京

一台笔记本，零API调用，就能跑过云端大模型？Vilius Vystartas最近做了组对照实验：在Mac上本地部署8个模型，用同样的10项Agent编程任务测试，结果让作者自己都不信——跑了两遍确认。

实验设计很直接：所有模型本地运行，无云端、无密钥、无按量计费。对照组是GPT-5.4和Claude Sonnet 4的云端API表现。

leaderboard第一名是个"小个子"：Bonsai 4B经1-bit量化后仅545MB，任务得分80%，超过GPT-5.4的75%。全程本地推理，零网络延迟，速度比Qwen系列快3倍——计算量少了，自然跑得更快。

4-bit量化的Qwen模型表现同样扎眼。约5GB体积，得分82-83%，与Claude Sonnet 4打平。这不是玩具演示，是正经的生产力工具级别。

更有意思的是量化精度的边际效应。1.7B参数规模下，2-bit（三值）确实比1-bit强：80%对73%。但放大到4B和8B，两者得分同为80%。多出来的那1-bit，磁盘占用翻倍（1.0GB vs 545MB，2.1GB vs 1.1GB），收益为零。Vystartas的结论是：模型越大，1-bit量化越"饱和"——该捕捉的模式都捕捉到了，额外精度成了死重。

这对特定场景意义重大。医疗、金融、政务等强监管领域，数据不出设备本身就是合规刚需。本地部署意味着：无需谈判供应商协议，无需跟踪每次调用的账单，无需担心网络波动。一台断网的笔记本就能跑。

实验数据已同步至benchmarks.workswithagents.dev，每次运行自动刷新，与云端模型并列对比。

作者原话："我没指望一个545MB的量化模型能打败前沿云API。但事实如此。"

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴