🧪

知识蒸馏 (Knowledge Distillation)

Knowledge Distillation
技术原理
AI训练优化

知识蒸馏(Knowledge Distillation)是一种模型压缩技术。它的核心思想是:一个已经训练好的大模型(教师模型)的输出中包含了丰富的"暗知识",可以用来训练一个小模型(学生模型),让小模型学会大模型的推理模式。

工作原理

1. 教师模型(大模型)对训练数据生成输出(包括每个可能答案的概率分布,而不仅仅是最终答案) 2. 学生模型(小模型)学习模仿教师模型的输出分布 3. 学生模型不仅学习"正确答案",还学习教师的"思考方式"

为什么蒸馏有效

  • 大模型的输出概率分布包含了丰富信息(如"B虽然不是正确答案,但比C更接近")
  • 这种"软标签"比传统的"硬标签"(只有对/错)包含更多知识
  • 学生模型通过学习这些细微差别,获得了远超其规模的推理能力

经典案例

  • DeepSeek-R1 → 蒸馏版:DeepSeek将R1(671B)的推理能力蒸馏到Qwen和Llama的7B-70B版本
  • GPT-4 → GPT-4o mini:小模型通过蒸馏获得了大模型的大部分能力
  • Gemini 2.5 Pro → Flash:Flash版本以极低成本提供接近Pro的质量

2026年趋势

蒸馏是AI降本增效的核心技术。蒸馏后的小模型在特定任务上可以接近甚至匹敌大模型,而推理成本仅为大模型的1/10到1/100。这对AI应用的规模化部署至关重要。