4B本地模型替代50美元API：Gemma 4视觉实测

硅屿手记

2026-05-22 01:59 ·北京

每月50美元的OCR接口被干掉了。有人用谷歌Gemma 4的4B视觉模型在本地跑通，成本归零。

关键是预处理 trick。不是直接丢图给模型，而是先压缩到特定分辨率、转灰度、去噪——把冗余信息砍掉，小模型也能稳定输出结构化文本。

脚本已开源：纯Python，依赖Transformers，单卡可跑。实测发票、截图、扫描件准确率接近商业API，延迟在可接受范围。

这对中小开发者意味着：敏感数据不用出本地，订阅费省下来，定制空间反而更大。视觉小模型的实用拐点，可能比预期来得早。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴