🪶

LoRA (低秩适应)

Low-Rank Adaptation
技术原理
AI训练微调

LoRA(Low-Rank Adaptation,低秩适应)是2021年微软提出的高效微调技术,已成为AI模型定制化的主流方法。

解决的问题

  • 全量微调一个700亿参数的模型需要数百GB显存,普通人根本做不到
  • LoRA只训练极小量的"适配器"参数(通常不到原模型的1%),显存需求降低10倍以上

工作原理

  • 不修改原始模型权重,而是添加"旁路"小矩阵
  • 训练时只更新这个小矩阵
  • 推理时把小矩阵合并到原权重中,不增加推理延迟
  • 可以训练多个LoRA适配器,按需切换(一个模型 = 多种风格)

QLoRA

  • LoRA + 4-bit量化
  • 将模型精度从FP16降到4-bit,进一步降低显存需求
  • 在RTX 4090(24GB)上就能微调70B模型

实际应用

  • Stable Diffusion LoRA:训练特定人物、画风、服装的LoRA,社区生态极其繁荣
  • LLM LoRA:让通用模型学会公司内部写作风格、专业术语
  • 多LoRA组合:同时加载多个LoRA,实现复合效果

局限性

  • LoRA改变的是模型的"风格",不是"知识"
  • 想教模型新知识,应该用RAG而不是LoRA
  • 多个LoRA叠加可能相互干扰