🔧

Fine-tuning (微调)

Fine-tuning
技术原理
AI训练定制化

微调(Fine-tuning)是让通用AI模型适应特定领域或任务的关键技术。与其从零训练一个模型(成本极高),不如拿一个已经训练好的强大模型,用少量特定数据"教"它新技能。

微调 vs 提示词 vs RAG

  • 提示词工程:不改模型,只优化输入。成本最低,效果有限
  • RAG:不改模型,给模型查资料。适合知识密集型任务
  • 微调:修改模型参数。适合风格/格式/行为模式的深度定制

微调方法演进

  • 全量微调:更新所有参数(成本高,效果好)
  • LoRA(Low-Rank Adaptation):只训练少量额外参数,大幅降低成本,2024年后成为主流
  • QLoRA:LoRA + 量化,消费级显卡也能微调70B模型
  • DPO(Direct Preference Optimization):用偏好数据直接优化,替代RLHF

适用场景

  • 让通用模型学会公司内部的术语和文档风格
  • 训练模型输出特定格式(如JSON Schema严格遵循)
  • 优化模型在特定语言/方言上的表现

注意

微调不是"灌输知识"的好方法——知识应该通过RAG提供。微调更适合改变模型的"行为"和"风格"。