知识蒸馏 (Knowledge Distillation) - AI词典

知识蒸馏（Knowledge Distillation）是一种模型压缩技术。它的核心思想是：一个已经训练好的大模型（教师模型）的输出中包含了丰富的"暗知识"，可以用来训练一个小模型（学生模型），让小模型学会大模型的推理模式。

1. 教师模型（大模型）对训练数据生成输出（包括每个可能答案的概率分布，而不仅仅是最终答案） 2. 学生模型（小模型）学习模仿教师模型的输出分布 3. 学生模型不仅学习"正确答案"，还学习教师的"思考方式"

蒸馏是AI降本增效的核心技术。蒸馏后的小模型在特定任务上可以接近甚至匹敌大模型，而推理成本仅为大模型的1/10到1/100。这对AI应用的规模化部署至关重要。