本地跑AI有个老难题:小模型快但容易"自信过头",大模型准却慢得拖后腿。我在用Gemma 4做边缘视觉项目时,摸索出一个不用微调就能提升效果的路子——让大模型当老师,专门教小模型怎么干活。

这套架构很简单:Gemma 4 E2B(27亿参数)跑在边缘设备上处理日常请求,更大的Gemma 4模型(放在Mac Mini上)负责两件事——复核疑难或涉及安全的案例,以及帮小模型写更好的系统提示词。大模型不只是备用方案,更是教练。

打开网易新闻 查看精彩图片

核心思路分三步走。第一步,把小模型的任务框死。别让它"描述图像",而是明确角色:"你是本地设备上的边缘视觉助手,描述人物、物体和安全相关活动,优先简洁的事实观察,最后给出0.0到1.0的置信度。"小模型需要 tight frame,减少自由发挥的空间。

打开网易新闻 查看精彩图片

第二步,让大模型批量生成候选提示词。我写了段代码让教师模型一次产出4个版本,涵盖不同风格——有的侧重安全关键词,有的强调拒绝模糊场景,有的专门处理低光照。然后拿真实帧测试,看哪个版本让小模型的置信度校准更准、误判更少。

第三步,建立升级机制。当小模型输出置信度低于0.7,或检测到"safety"相关关键词时,自动把请求转给大模型复核。大模型返回详细分析的同时,还会标注"此案例可用于改进学生提示词",定期汇总这些案例再喂给教师模型,迭代优化系统提示。

这套流程跑下来,我发现微调往往不是第一选择。收集数据集、启动训练任务、调学习率——这些成本很高。而提示词工程+智能路由,用几小时就能验证效果边界。只有当教师模型的复核反馈反复暴露同一类系统性盲区时,微调才真正值得。

打开网易新闻 查看精彩图片

具体数字:我的边缘循环处理单帧约120ms,升级到大模型后延迟跳到800ms,但触发率只有12%。整体吞吐量损失可控,准确率提升却很明显——小模型单独跑的误报率约23%,加入教师复核后降到7%。

最后说个反直觉的发现:教师模型生成的提示词往往比人手写的更"啰嗦",但小模型吃这套。比如教师建议加上"如果你不确定人数,说'至少N人'而非猜测",这种细粒度指令人工容易漏掉。大模型教小模型,教的其实是人类写提示词时忽略的边界情况。