这家AI公司把80亿参数压进1.15GB，手机跑大模型终于不烫了|gb|内存|大模型|手机|机器人

去年有个做机器人的朋友跟我吐槽：把Llama 3 8B塞进机械臂的板子里，散热风扇转得像直升机，推理延迟能让机械臂愣住半秒。现在这个问题有了新解法——不是换更大的散热片，而是把模型本身压缩到原来的1/14。

BitNet这些论文早就在实验室里验证过1-bit权重的可行性，但商业落地有个隐形门槛：精度不能崩。1-bit Bonsai的8B版本在IFEval、GSM8K、HumanEval+等六个主流基准测试上，打平了全精度8B模型的水平——注意是"打平"不是"接近"，这个细节决定了它能不能进供应链。

内存占用1.15GB是什么概念？iPhone 15 Pro的神经网络引擎（NPU）有16GB统一内存，跑完系统和其他应用，留给第三方模型的空间通常不到3GB。以前8B模型想上手机得砍到4B甚至2B，现在8B原教旨主义者可以松口气了。

速度提升8倍、能效提升5倍，这两个数字比"小14倍"更关键。机器人场景里，电池续航直接决定工作时长；实时语音助手的延迟阈值是200毫秒，超过这个数用户就开始觉得"卡"。1-bit Bonsai 4B在M4 Pro上跑到132 tokens/秒，相当于你刚说完半句话，模型已经想好了怎么回。

1.7B版本的存在是个信号：有些场景不需要"聪明"，需要"快且省"。智能手表、耳机、车载语音——这些设备连4B都嫌大。0.24GB的 footprint（内存占用）意味着它可以在Apple Watch的S系列芯片上直接跑，不需要云端接力。

有个反直觉的点：1-bit Bonsai的"智能密度"（单位内存能买到的智商）是全精度8B的10倍以上。这不是简单的压缩比，而是重新定义了端侧AI的经济账。以前算端侧部署要权衡"多大模型"vs"多少设备"，现在这道选择题变成了"同样模型，覆盖多少设备"。

技术路线上，1-bit权重配合定制的激活量化策略，把矩阵乘法的位宽压到极致。代价是训练流程要重新设计——不能直接拿FP16模型蒸馏，得从头训。这也是为什么之前实验室方案没能商业化：重新训练8B模型的成本，小团队扛不住。

机器人是最明显的客户。Figure、特斯拉Optimus这些团队，本体成本已经够高了，再加块A100级别的计算板？供应链会造反。1.15GB的内存需求意味着现有的ARM Cortex-A系列芯片就能跑，不需要额外AI加速器。

实时Agent是另一个战场。Anthropic的Computer Use演示很炫，但延迟是硬伤——每次操作要等云端回包。端侧模型做不到Claude 3.5 Opus的智商，但能做到"看到就点"的响应速度，这对自动化工作流是质变。

最隐蔽的需求来自成本敏感型公司。GPT-4o的API调用费看着不贵，乘以千万次日活就是天文数字。1-bit Bonsai的能效数据（milliwatt-hours per token）意味着，自建推理集群的电费能砍掉一个数量级。

当然，1-bit不是万能药。它需要特定的硬件支持（INT8/INT4指令集优化过的芯片），老设备吃不到红利。精度打平8B是在"主流基准"上，特定领域的微调效果还得看实际测试。

但方向已经明确：模型压缩的竞赛从"能不能跑"进入了"跑得好不好"的阶段。当1.15GB能买到8B级别的智商，云端推理的定价权就开始松动了——这才是大模型商业化真正的拐点。

这家AI公司把80亿参数压进1.15GB，手机跑大模型终于不烫了