每月50美元的OCR接口被干掉了。有人用谷歌Gemma 4的4B视觉模型在本地跑通,成本归零。

关键是预处理 trick。不是直接丢图给模型,而是先压缩到特定分辨率、转灰度、去噪——把冗余信息砍掉,小模型也能稳定输出结构化文本。

脚本已开源:纯Python,依赖Transformers,单卡可跑。实测发票、截图、扫描件准确率接近商业API,延迟在可接受范围。

这对中小开发者意味着:敏感数据不用出本地,订阅费省下来,定制空间反而更大。视觉小模型的实用拐点,可能比预期来得早。