身边有个程序员做了件挺有意思的事——他在iPhone上跑了个完全离线的视觉大模型应用,专门给穿搭打分。这件事的核心难点不在技术实现,而在于一个根本问题:时尚这东西,能标准化吗?
想想看,什么是“好看”?东京原宿和巴黎玛黑区的答案可能完全不同。同一个场合,有人觉得西装革履才得体,有人觉得休闲衬衫足够。审美判断往往涉及文化背景、个人偏好、潮流趋势等复杂维度,很难给出一个放之四海而皆准的结论。
但这位开发者找到了一个巧妙的切入点。他没有试图构建“通用审美标准”,而是把系统定义为封闭的评价体系。这个思路本身,比最终做出来的穿搭打分应用更有价值。
他参考了日本男装博主MB向大众普及的一个概念:正装与休闲的平衡。具体来说,如果一套穿搭中正装元素和休闲元素的比例接近7:3,会显得比较有型。他在此基础上建立了一套打分轴心,给每件单品——上衣、下装、鞋子——都设置了相对系统化的评分标准。大语言模型在这个封闭体系里表现得出奇地好。约1000个训练样本就足够让模型学会规则,甚至能合理外推到从未见过的单品。
这才是真正值得关注的部分:大语言模型在处理“封闭系统”时展现出的能力。当答案空间被明确定义,评判标准可被清晰描述时,模型不需要学习所有可能的输入组合,而是内化规则本身。
适合跑在iPhone上的小参数模型格外擅长这种特定领域的微调。参数少意味着训练成本低廉,而封闭系统内的任务恰好不需要庞大的知识储备。具体怎么做?他用了知识蒸馏的方法。先让大模型(Qwen3-VL-235B)理解一套理论文档——约10KB的内容涵盖了5个评分轴心的定义、基准对照表、聚合规则和输出规范。大模型根据这份文档给训练图片打分,生成图像与JSON标签的对应数据。小模型(Qwen3-VL-2B)无法容纳完整理论文档,但能学习输入与输出之间的映射关系。通过LoRA微调,约800张图像就够用了。为什么样本需求这么低?因为封闭系统的映射熵值很小——只要大模型按照稳定规则输出标签,小模型就能从有限样本中重构出评分逻辑。
训练完成后,模型被转换为CoreML格式,部署到iPhone上,实现完全离线的推理。输入一张穿搭照片,输出固定格式的JSON标签,整个过程不依赖网络连接。
这套方法的应用边界远不止时尚评分。任何评判标准在特定流派内部已被确立的领域——妆容分析、运动动作纠正、甚至某些算命体系——都适用同样的思路。核心要素只有一个:能否把评判逻辑写成稳定的书面文档,让大模型据此产出一致性足够高的标注数据。
整个项目最耐人寻味的地方在于:一个参数量只有大模型十分之一甚至百分之一的小模型,经过封闭领域的精心微调后,在特定任务上可以模仿大模型的行为。它不理解理论本身,也不需要理解,它只是学会了在这个狭窄领域里做出符合理论框架的判断。
热门跟贴