工程师把模型塞进手机后，账单来了

像素与芯片

2026-05-01 00:13 ·北京

凌晨两点，一位嵌入式工程师终于把7B参数的模型跑进了手机。他以为战斗结束了——直到看到电费单。

这张图藏着所有秘密

原文用一张对比图拆穿了行业幻觉：云端大模型（大语言模型） vs 端侧小模型（小型语言模型），成本曲线在何时交叉？

X轴是查询量，Y轴是累计成本。云端起点低但斜率陡峭，端侧起点高却趋于平缓。交叉点通常在日均百万次查询附近——但大多数边缘设备永远到不了这个数。

硬件成本被严重低估

高通骁龙8 Gen 3的神经网络处理单元（NPU）算力够强，可单价让批量生产的物联网厂商倒吸凉气。更隐蔽的是散热：持续推理让设备温度飙升，降频后实际吞吐量只剩标称值的60%。

原文算了一笔账：一台边缘网关7×24小时跑3B模型，三年总拥有成本（TCO）反而比调用云端API贵17%。这还没算工程师为量化压缩（Quantization）和内存优化掉的头发。

延迟陷阱与隐私幻觉

「本地推理零延迟」是伪命题。首次加载模型进内存的冷启动时间，在低端ARM芯片上能飙到8秒——足够用户关掉App给个一星差评。

隐私优势也被过度营销。原文指出：多数端侧方案仍需回传匿名化日志做模型更新，数据终究要出设备。真正的联邦学习（Federated Learning）部署成本，又绕回了那张成本曲线图。

谁在假装看不见？

芯片厂商爱讲「每瓦特算力」，云厂商鼓吹「混合架构」，中间夹着算不清账的产品经理。原文的工程师最后把模型砍到了1.5B，精度损失4%，但总算让CFO在会议上点了头。

所以问题变成：当你的设备日活从10万掉到1万，那张成本曲线图会怎么变形？有人愿意公开自己的真实数字吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴