扩散模型(Diffusion Model)是当前最主流的图像生成技术范式。它的核心思想是:先学习如何给图片"加噪"(正向过程),然后学会如何"去噪"恢复原图(反向过程)。当训练完成后,只需从纯噪声开始逐步去噪,就能生成全新的图片。
工作流程
1. 训练阶段:给真实图片逐步添加噪声,训练模型学会逆向去噪 2. 生成阶段:从随机噪声开始,模型根据文字提示逐步去噪,每一步都让画面更清晰 3. 通常需要20-50步去噪迭代才能生成一张高质量图片
关键概念
- Latent Diffusion:不在像素空间而是在压缩的潜空间扩散,大幅降低计算量(Stable Diffusion的核心创新)
- CFG(Classifier-Free Guidance):控制文字提示对生成结果的影响力
- Sampler(采样器):不同的去噪算法(DDIM、Euler、DPM++),影响生成速度和质量
主流模型
- Stable Diffusion系列(开源,生态最丰富)
- Flux(2024年发布,文字渲染能力最强)
- DALL·E系列(OpenAI,闭源)
- Midjourney(闭源,艺术质量最高)
- Sora(OpenAI,视频扩散模型)