🔧

Fine-tuning (微调)

Fine-tuning

技术原理

AI训练定制化

微调（Fine-tuning）是让通用AI模型适应特定领域或任务的关键技术。与其从零训练一个模型（成本极高），不如拿一个已经训练好的强大模型，用少量特定数据"教"它新技能。

微调 vs 提示词 vs RAG

提示词工程：不改模型，只优化输入。成本最低，效果有限
RAG：不改模型，给模型查资料。适合知识密集型任务
微调：修改模型参数。适合风格/格式/行为模式的深度定制

微调方法演进

全量微调：更新所有参数（成本高，效果好）
LoRA（Low-Rank Adaptation）：只训练少量额外参数，大幅降低成本，2024年后成为主流
QLoRA：LoRA + 量化，消费级显卡也能微调70B模型
DPO（Direct Preference Optimization）：用偏好数据直接优化，替代RLHF

适用场景

让通用模型学会公司内部的术语和文档风格
训练模型输出特定格式（如JSON Schema严格遵循）
优化模型在特定语言/方言上的表现

注意

微调不是"灌输知识"的好方法——知识应该通过RAG提供。微调更适合改变模型的"行为"和"风格"。