大模型教小模型：Gemma 4的"师生协作"实战|gemma|大模型|师生协作|教小模型|置信度|边缘

本地跑AI有个老难题：小模型快但容易"自信过头"，大模型准却慢得拖后腿。我在用Gemma 4做边缘视觉项目时，摸索出一个不用微调就能提升效果的路子——让大模型当老师，专门教小模型怎么干活。

这套架构很简单：Gemma 4 E2B（27亿参数）跑在边缘设备上处理日常请求，更大的Gemma 4模型（放在Mac Mini上）负责两件事——复核疑难或涉及安全的案例，以及帮小模型写更好的系统提示词。大模型不只是备用方案，更是教练。

核心思路分三步走。第一步，把小模型的任务框死。别让它"描述图像"，而是明确角色："你是本地设备上的边缘视觉助手，描述人物、物体和安全相关活动，优先简洁的事实观察，最后给出0.0到1.0的置信度。"小模型需要 tight frame，减少自由发挥的空间。

第二步，让大模型批量生成候选提示词。我写了段代码让教师模型一次产出4个版本，涵盖不同风格——有的侧重安全关键词，有的强调拒绝模糊场景，有的专门处理低光照。然后拿真实帧测试，看哪个版本让小模型的置信度校准更准、误判更少。

第三步，建立升级机制。当小模型输出置信度低于0.7，或检测到"safety"相关关键词时，自动把请求转给大模型复核。大模型返回详细分析的同时，还会标注"此案例可用于改进学生提示词"，定期汇总这些案例再喂给教师模型，迭代优化系统提示。

这套流程跑下来，我发现微调往往不是第一选择。收集数据集、启动训练任务、调学习率——这些成本很高。而提示词工程+智能路由，用几小时就能验证效果边界。只有当教师模型的复核反馈反复暴露同一类系统性盲区时，微调才真正值得。

具体数字：我的边缘循环处理单帧约120ms，升级到大模型后延迟跳到800ms，但触发率只有12%。整体吞吐量损失可控，准确率提升却很明显——小模型单独跑的误报率约23%，加入教师复核后降到7%。

最后说个反直觉的发现：教师模型生成的提示词往往比人手写的更"啰嗦"，但小模型吃这套。比如教师建议加上"如果你不确定人数，说'至少N人'而非猜测"，这种细粒度指令人工容易漏掉。大模型教小模型，教的其实是人类写提示词时忽略的边界情况。

大模型教小模型：Gemma 4的"师生协作"实战