知识蒸馏(Knowledge Distillation)是一种模型压缩技术。它的核心思想是:一个已经训练好的大模型(教师模型)的输出中包含了丰富的"暗知识",可以用来训练一个小模型(学生模型),让小模型学会大模型的推理模式。
工作原理
1. 教师模型(大模型)对训练数据生成输出(包括每个可能答案的概率分布,而不仅仅是最终答案) 2. 学生模型(小模型)学习模仿教师模型的输出分布 3. 学生模型不仅学习"正确答案",还学习教师的"思考方式"
为什么蒸馏有效
- 大模型的输出概率分布包含了丰富信息(如"B虽然不是正确答案,但比C更接近")
- 这种"软标签"比传统的"硬标签"(只有对/错)包含更多知识
- 学生模型通过学习这些细微差别,获得了远超其规模的推理能力
经典案例
- DeepSeek-R1 → 蒸馏版:DeepSeek将R1(671B)的推理能力蒸馏到Qwen和Llama的7B-70B版本
- GPT-4 → GPT-4o mini:小模型通过蒸馏获得了大模型的大部分能力
- Gemini 2.5 Pro → Flash:Flash版本以极低成本提供接近Pro的质量
2026年趋势
蒸馏是AI降本增效的核心技术。蒸馏后的小模型在特定任务上可以接近甚至匹敌大模型,而推理成本仅为大模型的1/10到1/100。这对AI应用的规模化部署至关重要。