它就是一种模型压缩和优化的方法，其核心思想就是“通过将一个大型且复杂的模型（称为“教师模型”）的知识、传递给一个小而高效的模型（称为“学生模型”）”，从而使“学生模型”在保持较高性能的同时，降低计算成本和资源需求。因此，蒸馏的并不是大模型架构和代码，而蒸馏的是大模型里面包含的知识(Knowledge)，如下图所示：

DeepSeek 的蒸馏技术在此基础上进行了优化，结合了数据蒸馏和模型蒸馏的双重策略，不仅提升了性能，还显著降低了部署门槛。其过程如下：

知识传递：教师模型通过其复杂的结构和大量的参数、学习数据中的深层模式和特征；学生模型则通过模仿教师模型的输出（如概率分布或中间层的特征表示）来继承这些知识；

压缩与优化：学生模型通常参数量更少、结构更简单，因此计算成本和内存占用大幅降低，但通过蒸馏，它仍然能保留教师模型的大部分性能；

监督信号：学生模型的训练不是直接基于原始数据，而是以教师模型的输出（如软标签）作为指导。

02 DeepSeek蒸馏过程

DeepSeek 的蒸馏过程大致可以总结为如下五个关键步骤，而每个关键步骤又包含了多个子步骤，如下所示：

2.1 训练教师模型

构建一个高性能的教师模型作为其知识蒸馏的源头，教师模型需要具备生成高质量推理轨迹和语言输出的能力。

模型选择与初始化: 选择一个大规模 Transformer 架构模型，如 DeepSeek-R1，并从预训练权重初始化。

大规模预训练：使用数千亿 token 的多语言文本、代码和科学文献进行训练，目标是自回归语言建模、增强模型的上下文理解能力。

强化学习优化(RLHF): 引入了多阶段的强化学习优化（RLHF），通过强化学习从人类反馈中优化模型。加入自我验证和思维链（Chain-of-Thought, CoT）训练，提升推理能力。通过奖励模型评估输出质量，确保生成内容的准确性和可读性，同时增强了模型在复杂任务（如数学推理、编程）中的表现。
验证与基准测试：在 MMLU、GSM8K、AIME 等权威数据集上进行测试，确保性能达标（如 AIME 准确率超过 70%）。根据测试结果调整超参数，进一步优化模型收敛效果。

2. 2 数据准备与生成

利用教师模型生成高质量的训练数据(包含数万到数百万条样本)，并通过严格的清洗和筛选机制（如规则过滤、逻辑验证）确保数据质量，从而为学生模型提供优质的训练素材。

定义任务范围：聚焦于推理任务（如数学、编程）或通用语言任务，明确数据生成的目标领域。

数据生成：输入种子数据（如数学题、编程挑战），教师模型生成带注释的输出。

数据清洗与筛选：通过规则过滤低质量样本（如语言混合、逻辑错误），保留约 80 万条优质样本（如 DeepSeek-R1 数据集）。

数据分类：将数据分为推理数据（用于提升逻辑能力）和非推理数据（用于增强语言流畅性）。

数据增强：通过同义替换或问题变体增加数据多样性。

2.3 训练学生模型

通过教师模型的输出训练小型且高效的学生模型，使其行为接近教师模型。

模型选择与初始化：选择 1.5B、7B 或 32B 参数的模型（如 Qwen 或 Llama 变体），从预训练权重或随机初始化开始。

定义损失函数：使用软目标损失（KL 散度，基于教师模型的软标签）和硬目标损失（交叉熵，基于原始标签）的加权组合：

其中，软目标损失使学生模型能够学习教师模型的概率分布，而硬目标损失确保模型对真实标签的拟合，两者结合提高了知识传递的效率和准确性。

监督微调（SFT）：以教师模型的输出为目标，批量训练学生模型，模仿其推理步骤或语言分布。

中间表示蒸馏：引入了中间表示蒸馏技术，对齐教师模型和学生模型的中间层表示（如注意力矩阵），使用均方误差或余弦相似度作为对齐目标。通过蒸馏中间层的知识，学生模型能够更好地模仿教师模型的行为，尤其是在复杂推理任务中表现更为出色。
动态调整：在训练过程中动态调整温度参数 T 和权重 α，并使用学习率调度（如余弦退火）确保模型收敛。