它就是一种模型压缩和优化的方法,其核心思想就是“通过将一个大型且复杂的模型(称为“教师模型”)的知识、传递给一个小而高效的模型(称为“学生模型”)”,从而使“学生模型”在保持较高性能的同时,降低计算成本和资源需求。因此,蒸馏的并不是大模型架构和代码,而蒸馏的是大模型里面包含的知识(Knowledge),如下图所示:

DeepSeek 的蒸馏技术在此基础上进行了优化,结合了数据蒸馏和模型蒸馏的双重策略,不仅提升了性能,还显著降低了部署门槛。其过程如下:
知识传递:教师模型通过其复杂的结构和大量的参数、学习数据中的深层模式和特征;学生模型则通过模仿教师模型的输出(如概率分布或中间层的特征表示)来继承这些知识;
压缩与优化:学生模型通常参数量更少、结构更简单,因此计算成本和内存占用大幅降低,但通过蒸馏,它仍然能保留教师模型的大部分性能;
监督信号:学生模型的训练不是直接基于原始数据,而是以教师模型的输出(如软标签)作为指导。
02 DeepSeek蒸馏过程
DeepSeek 的蒸馏过程大致可以总结为如下五个关键步骤,而每个关键步骤又包含了多个子步骤,如下所示:
2.1 训练教师模型
构建一个高性能的教师模型作为其知识蒸馏的源头,教师模型需要具备生成高质量推理轨迹和语言输出的能力。
强化学习优化(RLHF): 引入了多阶段的强化学习优化(RLHF),通过强化学习从人类反馈中优化模型。加入自我验证和思维链(Chain-of-Thought, CoT)训练,提升推理能力。通过奖励模型评估输出质量,确保生成内容的准确性和可读性,同时增强了模型在复杂任务(如数学推理、编程)中的表现。
验证与基准测试:在 MMLU、GSM8K、AIME 等权威数据集上进行测试,确保性能达标(如 AIME 准确率超过 70%)。根据测试结果调整超参数,进一步优化模型收敛效果。
2. 2 数据准备与生成
利用教师模型生成高质量的训练数据(包含数万到数百万条样本),并通过严格的清洗和筛选机制(如规则过滤、逻辑验证)确保数据质量,从而为学生模型提供优质的训练素材。
2.3 训练学生模型
通过教师模型的输出训练小型且高效的学生模型,使其行为接近教师模型。

其中,软目标损失使学生模型能够学习教师模型的概率分布,而硬目标损失确保模型对真实标签的拟合,两者结合提高了知识传递的效率和准确性。
2.4 优化与调整
提升学生模型的性能和效率,使其接近教师模型的表现。
1)冷启动阶段:使用小规模精选数据训练模型,提升其生成内容的可读性和流畅性。
2)推理优化阶段:通过强化学习或引入额外数据(如逻辑推理任务),增强模型的逻辑能力和推理性能。
3)质量提升阶段:通过 BLEU 分数或准确率筛选优质输出,进一步优化模型的生成质量。
1)剪枝:移除冗余权重,降低模型复杂度。
2)量化:将模型参数量化为 8-bit 整数,压缩模型大小并提升推理速度。
2.5 评估与部署
验证学生模型的性能,并将其投入实际应用或开源。

03 最后小结
实验表明,对于小模型而言,蒸馏技术的效果远超直接应用强化学习,这充分证明了大模型的推理模式具有很好的可迁移性。DeepSeek-R1 的多模态能力为跨模态蒸馏提供了新的思路,进一步拓展了蒸馏技术的应用场景。
同时,DeepSeek 通过“大模型强化学习+小模型蒸馏”的技术路径为大模型的研发提供了一条全新的思路。这一路径不仅提升了模型的性能和效率,还降低了技术落地的成本。通过蒸馏技术降低计算门槛,中小企业也能够部署高性能模型,从而推动人工智能技术的普惠化发展。