545MB本地模型跑赢GPT-5.4，不需要API密钥

字节漫游指南

2026-05-11 11:17 ·北京

一个半G不到的文件，能在你的笔记本上跑过OpenAI最新的云端大模型。这听起来像玩笑，但有人真的做了对比测试。

开发者Vilius Vystartas在Mac上跑了10个编程代理任务，对比了8款本地模型。没有云、没有API密钥、没有按token计费。结果他跑了两遍确认——545MB的量化模型，得分80%，而GPT-5.4是75%。

这个模型叫Bonsai 4B，用的是1-bit量化。1-bit是什么概念？每个参数只用1个比特存储，传统FP16是16比特。压缩到极致，体积只有545MB，但处理速度比同系列的Qwen模型快3倍——需要计算的内容更少，延迟几乎为零。

更意外的是4-bit量化的表现。Qwen的4-bit版本约5GB，得分82-83%，追平了Claude Sonnet 4的云端成绩。这不是玩具级别的演示，是实打实的生产力工具。

测试还暴露了一个反直觉的结论：2-bit（三值量化）在1.7B参数规模确实有优势，80%对73%。但到了4B和8B规模，1-bit和2-bit得分完全相同，都是80%。多出来的那1个比特，让磁盘占用翻倍（1.0GB对545MB，2.1GB对1.1GB），收益却是零。模型越大，1-bit量化越能榨干全部潜力。

对医疗、金融、政府这类强监管行业，这意味着什么？数据不出设备，不用和云厂商签API协议，不用跟踪每次请求的账单。合规成本从谈判桌和审计流程，变成了一次性的本地部署。

完整测试结果在benchmarks.workswithagents.dev持续更新，每次运行都会刷新，云端模型也在同一榜单上直接对比。作者的原话是："我没想到545MB的量化模型能打败前沿云API。但事实如此。"

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴