微调(Fine-tuning)是让通用AI模型适应特定领域或任务的关键技术。与其从零训练一个模型(成本极高),不如拿一个已经训练好的强大模型,用少量特定数据"教"它新技能。
微调 vs 提示词 vs RAG
- 提示词工程:不改模型,只优化输入。成本最低,效果有限
- RAG:不改模型,给模型查资料。适合知识密集型任务
- 微调:修改模型参数。适合风格/格式/行为模式的深度定制
微调方法演进
- 全量微调:更新所有参数(成本高,效果好)
- LoRA(Low-Rank Adaptation):只训练少量额外参数,大幅降低成本,2024年后成为主流
- QLoRA:LoRA + 量化,消费级显卡也能微调70B模型
- DPO(Direct Preference Optimization):用偏好数据直接优化,替代RLHF
适用场景
- 让通用模型学会公司内部的术语和文档风格
- 训练模型输出特定格式(如JSON Schema严格遵循)
- 优化模型在特定语言/方言上的表现
注意
微调不是"灌输知识"的好方法——知识应该通过RAG提供。微调更适合改变模型的"行为"和"风格"。