LoRA(Low-Rank Adaptation,低秩适应)是2021年微软提出的高效微调技术,已成为AI模型定制化的主流方法。
解决的问题
- 全量微调一个700亿参数的模型需要数百GB显存,普通人根本做不到
- LoRA只训练极小量的"适配器"参数(通常不到原模型的1%),显存需求降低10倍以上
工作原理
- 不修改原始模型权重,而是添加"旁路"小矩阵
- 训练时只更新这个小矩阵
- 推理时把小矩阵合并到原权重中,不增加推理延迟
- 可以训练多个LoRA适配器,按需切换(一个模型 = 多种风格)
QLoRA
- LoRA + 4-bit量化
- 将模型精度从FP16降到4-bit,进一步降低显存需求
- 在RTX 4090(24GB)上就能微调70B模型
实际应用
- Stable Diffusion LoRA:训练特定人物、画风、服装的LoRA,社区生态极其繁荣
- LLM LoRA:让通用模型学会公司内部写作风格、专业术语
- 多LoRA组合:同时加载多个LoRA,实现复合效果
局限性
- LoRA改变的是模型的"风格",不是"知识"
- 想教模型新知识,应该用RAG而不是LoRA
- 多个LoRA叠加可能相互干扰