AI 术语通俗词典：蒸馏|大模型|推理|术语|示例|神经网络|蒸馏|通俗词典

蒸馏是深度学习、大模型压缩、模型部署、知识迁移和生成式人工智能中常见的一个术语，英文通常称为 Distillation 或 Knowledge Distillation，即“知识蒸馏”。它用来描述一种让小模型学习大模型能力的方法。换句话说，蒸馏是在回答：如何把一个大模型中学到的知识，迁移到一个更小、更快、更便宜的模型中。

如果说大模型像一位能力很强但成本较高的老师，那么小模型就像一位更轻量的学生。蒸馏的核心思想是：不只让学生模型学习训练数据中的标准答案，还让它学习教师模型的输出分布、判断方式、推理倾向或中间表示。

因此，蒸馏常用于模型压缩、移动端部署、边缘计算、低延迟推理、小模型训练、专用任务模型、大语言模型微调和多模态模型优化中，是理解“如何让小模型继承大模型能力”的重要基础概念。

一、基本概念：什么是蒸馏

蒸馏（Distillation）是指用一个较大的教师模型指导一个较小的学生模型训练。

典型流程可以概括为：教师模型 → 产生软标签或中间知识 → 学生模型学习 → 得到轻量模型。

图 1：蒸馏的基本思想

例如，在图像分类任务中，标准标签可能只告诉模型：

这张图是猫。

但教师模型可能输出更细的信息：

其他：0.02

这类概率分布被称为“软标签”。

软标签比硬标签包含更多信息。它不仅告诉学生模型“正确答案是猫”，还告诉它“这张图和狗、狐狸也有一点相似，但和汽车差别很大”。

从通俗角度看：普通训练只告诉学生“标准答案是什么”。蒸馏训练还告诉学生“老师为什么更倾向于这个答案”。

二、为什么需要蒸馏

蒸馏之所以重要，是因为大模型虽然能力强，但使用成本也高。

大模型通常存在以下问题：

• 参数量大

• 推理速度慢

• 显存占用高

• 部署成本高

• 不适合移动端或边缘设备

• 在高并发场景中成本较高

例如，一个大语言模型可能在理解、生成和推理方面效果很好，但如果每次请求都调用大模型，成本和延迟可能难以接受。

这时，可以用大模型生成训练信号，让小模型学习特定任务。

例如：

• 用大模型生成分类标注，训练小分类模型

• 用大模型生成问答样本，训练专用问答模型

• 用大模型生成推理步骤，训练小模型模仿解题方式

• 用大模型输出结果，训练小模型在本地快速推理

从通俗角度看：蒸馏的目标不是让小模型完全复制大模型，而是让小模型在重要任务上尽量接近大模型，同时更快、更省、更容易部署。

三、蒸馏学习什么

蒸馏并不只有一种形式。学生模型可以学习教师模型的不同“知识”。

图 2：知识蒸馏过程概览

1、学习软标签

最常见的是学习教师模型输出的概率分布。

普通监督学习通常使用硬标签：

正确类别：猫

蒸馏可以使用软标签：

猫 0.82，狗 0.10，狐狸 0.05……

软标签包含类别之间的相似关系，因此更有指导价值。

例如，“猫”和“狗”都属于动物，比“猫”和“汽车”更接近。教师模型的概率分布可以把这种关系传递给学生模型。

2、学习中间表示

有些蒸馏方法会让学生模型学习教师模型的中间层表示。

例如：

• 隐藏层向量

• 注意力权重

• 特征图

• token 表示

• 图像特征

这种方式不只模仿最终答案，还模仿教师模型处理信息的过程。

3、学习生成结果

在大语言模型中，学生模型也可以学习教师模型生成的回答。

例如：问题 → 教师模型回答 → 学生模型学习回答风格和任务模式。

这种方式常用于指令微调、小模型训练和专用领域模型构建。

4、学习推理过程

对于复杂任务，教师模型还可以生成中间推理步骤，让学生模型学习更清晰的解题路径。

不过，推理过程蒸馏需要谨慎。错误推理也可能被学生模型学到，因此需要筛选和验证数据质量。

四、蒸馏的基本目标

蒸馏训练通常希望学生模型输出接近教师模型输出。

图 3：蒸馏训练流程与损失分析

如果教师模型输出的概率分布为 q，学生模型输出的概率分布为 p，可以让学生模型尽量接近 q。

常见思想可以写为：

其中：

• L_distill 表示蒸馏损失

• q 表示教师模型输出分布

• p 表示学生模型输出分布

• D 表示分布之间的差异度量

在实际训练中，也常把真实标签损失和蒸馏损失结合起来：

其中：

• L 表示总损失

• L_hard 表示学生模型对真实标签的监督学习损失

• L_distill 表示学生模型模仿教师模型的损失

• α 表示两类损失的权重

从通俗角度看：学生模型既要学习标准答案，也要学习教师模型的判断习惯。

五、蒸馏与微调、量化的区别

蒸馏常与微调、量化一起出现，但它们不是同一件事。

1、蒸馏

蒸馏关注的是：让小模型学习大模型的能力。

它通常涉及教师模型和学生模型。

2、微调

微调关注的是：让已有模型适应某个具体任务或领域。

例如，在法律问答数据上微调模型，使它更适合法律场景。

微调不一定涉及教师模型。

3、量化

量化关注的是：用更低精度保存和计算模型参数。

例如，把 FP16 参数压缩为 INT8 或 INT4，以减少显存和提高推理效率。

量化通常不改变模型结构，也不一定重新训练模型。

4、三者关系

可以概括为：

• 蒸馏：换成更小学生模型

• 微调：让模型适应任务

• 量化：让模型存储和计算更省

在实际部署中，三者可以结合使用。

例如：先用大模型蒸馏出小模型，再在业务数据上微调，最后进行量化部署。

六、蒸馏在大模型中的应用

在大语言模型时代，蒸馏的应用更加广泛。

1、训练专用小模型

如果某个任务比较固定，例如客服分类、合同条款识别、商品标题改写，可以用大模型生成大量高质量样本，再训练一个小模型完成该任务。

这样可以降低在线推理成本。

2、压缩通用能力

一些小语言模型会通过学习大模型生成的数据，获得较好的指令理解和问答能力。

这种方式不能完全复制大模型能力，但可以显著提升小模型表现。

3、构建领域模型

在医疗、法律、金融、教育等领域，可以用强模型生成或筛选领域样本，再训练较小的领域模型。

不过，高风险领域必须进行专家审核，不能完全依赖教师模型生成内容。

4、提升部署效率

蒸馏后的小模型可以用于：

• 本地部署

• 移动端应用

• 低延迟服务

• 高并发场景

• 企业私有化部署

• 边缘设备推理

从实践角度看，蒸馏是大模型能力工程化落地的重要方法之一。

七、蒸馏的优势、局限与常见误解

1、蒸馏的主要优势

蒸馏最大的优势是让小模型获得接近大模型的任务能力，同时降低成本。

它可以带来：

• 更快推理速度

• 更低显存占用

• 更低部署成本

• 更适合本地运行

• 更适合专用任务

• 更容易上线到资源受限设备

从通俗角度看：蒸馏让“大模型做老师，小模型学本领”。

2、蒸馏的主要局限

蒸馏也有明显局限。

首先，学生模型容量有限，不可能完整继承教师模型所有能力。

其次，教师模型如果输出错误，学生模型也可能学习错误。

再次，蒸馏效果依赖训练数据质量。如果蒸馏数据覆盖不充分，小模型在新任务上可能表现差。

此外，蒸馏后的模型通常更适合特定任务，不一定拥有教师模型同样的泛化能力。

3、常见误解

误解一：蒸馏后的小模型一定和大模型一样强。

不对。小模型通常只能在部分任务上接近教师模型。

误解二：蒸馏只是压缩参数。

不准确。蒸馏不是简单删除参数，而是通过训练迁移教师模型的行为和知识。

误解三：教师模型越大，蒸馏效果一定越好。

不一定。教师模型质量、任务匹配程度、数据质量和学生模型容量都很重要。

误解四：蒸馏可以替代所有部署优化。

不对。实际部署还可能需要量化、剪枝、缓存、并行和工程优化。

八、如何理解蒸馏的应用价值

蒸馏的核心价值是“能力迁移”。它不是为了证明小模型一定比大模型好，而是为了在效果、速度、成本和部署条件之间取得平衡。

在 AI 系统中，可以这样理解：

• 大模型负责提供强能力和高质量示范

• 小模型负责在具体场景中高效执行

例如：

• 大模型用于生成训练数据

• 小模型用于线上高频调用

• 大模型用于复杂问题兜底

• 小模型用于低成本常规任务

这种组合方式可以让系统既有较强能力，又能控制成本。

从实践角度看，蒸馏适合那些任务边界较清楚、数据可构造、输出可验证、部署成本敏感的场景。

九、Python 示例

下面用简化示例说明蒸馏的基本思想。

示例 1：教师模型输出软标签

软标签比“猫”这个硬标签包含更多类别关系信息。

示例 2：学生模型学习教师输出

蒸馏训练的目标，就是让学生模型的输出分布逐渐接近教师模型。

示例 3：真实标签与蒸馏信号结合

这个例子说明：学生模型可以同时学习真实标签和教师模型的软标签。

示例 4：蒸馏数据样本

在大模型蒸馏中，教师模型可以提供答案，也可以提供简短解释或结构化输出。

小结

蒸馏是一种让小模型学习大模型能力的训练方法。它通过教师模型提供软标签、中间表示、生成结果或推理过程，让学生模型在较低成本下获得较好的任务表现。蒸馏不能让小模型完全复制大模型，但可以显著提升小模型在特定任务中的效果。对初学者而言，可以把蒸馏理解为：用大模型当老师，把有用能力迁移给更轻量的学生模型。

“点赞有美意，赞赏是鼓励”

AI 术语通俗词典：蒸馏

热搜

热门跟贴

热搜

热门跟贴

相关推荐

AI演绎：这就是水蒸馏的工作原理

世界上最流行的软件，快被AI冲垮了！

中美互联网公司的AI提效，都从裁员开始？ | 电厂

AI用电暴涨，全球电网吃紧，下个赢家已经浮出水面

你每天浪费的早晨90分钟，AI用15分钟就抢回来了

不是给马车加发动机，而是造一辆汽车——评《AI原生》丨商业高研院

不会用AI的程序员，正在被同行甩开

AI已严重威胁人类，疯狂抢水电，AI扩张正在透支普通人生命

AI演绎：国粹艺术代表

AI Coding 进入“计量时代”

真是一个不错的方法（AI）

不得不感叹人类的工程智慧有多强大（AI）

第一次见发明的蒸汽机，瓦特能告侵权了，科技的尽头是烧锅炉！

原来轮船是这样做出来的（AI）

AI已经发展成这样了吗，这风格真的很唯美呀

蚂蚁灵波：首个自回归因果世界模型，50条数据解锁通用机器人操控

两个LLM互相对线，推理起飞：康奈尔团队发布大模型版类GAN训练法

都别吵了，李飞飞把「世界模型」定义和重点讲清楚了

一个GPT Plus会员的钱，够机器人跑一个月世界模型了

当大模型开始为Agent“打工”