一个半G不到的文件,能在你的笔记本上跑过OpenAI最新的云端大模型。这听起来像玩笑,但有人真的做了对比测试。
开发者Vilius Vystartas在Mac上跑了10个编程代理任务,对比了8款本地模型。没有云、没有API密钥、没有按token计费。结果他跑了两遍确认——545MB的量化模型,得分80%,而GPT-5.4是75%。
打开网易新闻 查看精彩图片
这个模型叫Bonsai 4B,用的是1-bit量化。1-bit是什么概念?每个参数只用1个比特存储,传统FP16是16比特。压缩到极致,体积只有545MB,但处理速度比同系列的Qwen模型快3倍——需要计算的内容更少,延迟几乎为零。
打开网易新闻 查看精彩图片
更意外的是4-bit量化的表现。Qwen的4-bit版本约5GB,得分82-83%,追平了Claude Sonnet 4的云端成绩。这不是玩具级别的演示,是实打实的生产力工具。
测试还暴露了一个反直觉的结论:2-bit(三值量化)在1.7B参数规模确实有优势,80%对73%。但到了4B和8B规模,1-bit和2-bit得分完全相同,都是80%。多出来的那1个比特,让磁盘占用翻倍(1.0GB对545MB,2.1GB对1.1GB),收益却是零。模型越大,1-bit量化越能榨干全部潜力。
打开网易新闻 查看精彩图片
对医疗、金融、政府这类强监管行业,这意味着什么?数据不出设备,不用和云厂商签API协议,不用跟踪每次请求的账单。合规成本从谈判桌和审计流程,变成了一次性的本地部署。
完整测试结果在benchmarks.workswithagents.dev持续更新,每次运行都会刷新,云端模型也在同一榜单上直接对比。作者的原话是:"我没想到545MB的量化模型能打败前沿云API。但事实如此。"
热门跟贴