🪶

LoRA (低秩适应)

Low-Rank Adaptation

技术原理

AI训练微调

LoRA（Low-Rank Adaptation，低秩适应）是2021年微软提出的高效微调技术，已成为AI模型定制化的主流方法。

解决的问题

全量微调一个700亿参数的模型需要数百GB显存，普通人根本做不到
LoRA只训练极小量的"适配器"参数（通常不到原模型的1%），显存需求降低10倍以上

工作原理

不修改原始模型权重，而是添加"旁路"小矩阵
训练时只更新这个小矩阵
推理时把小矩阵合并到原权重中，不增加推理延迟
可以训练多个LoRA适配器，按需切换（一个模型 = 多种风格）

QLoRA

LoRA + 4-bit量化
将模型精度从FP16降到4-bit，进一步降低显存需求
在RTX 4090（24GB）上就能微调70B模型

实际应用

Stable Diffusion LoRA：训练特定人物、画风、服装的LoRA，社区生态极其繁荣
LLM LoRA：让通用模型学会公司内部写作风格、专业术语
多LoRA组合：同时加载多个LoRA，实现复合效果

局限性

LoRA改变的是模型的"风格"，不是"知识"
想教模型新知识，应该用RAG而不是LoRA
多个LoRA叠加可能相互干扰