🌫️

扩散模型 (Diffusion Model)

Diffusion Model
技术原理
AI绘画生成模型

扩散模型(Diffusion Model)是当前最主流的图像生成技术范式。它的核心思想是:先学习如何给图片"加噪"(正向过程),然后学会如何"去噪"恢复原图(反向过程)。当训练完成后,只需从纯噪声开始逐步去噪,就能生成全新的图片。

工作流程

1. 训练阶段:给真实图片逐步添加噪声,训练模型学会逆向去噪 2. 生成阶段:从随机噪声开始,模型根据文字提示逐步去噪,每一步都让画面更清晰 3. 通常需要20-50步去噪迭代才能生成一张高质量图片

关键概念

  • Latent Diffusion:不在像素空间而是在压缩的潜空间扩散,大幅降低计算量(Stable Diffusion的核心创新)
  • CFG(Classifier-Free Guidance):控制文字提示对生成结果的影响力
  • Sampler(采样器):不同的去噪算法(DDIM、Euler、DPM++),影响生成速度和质量

主流模型

  • Stable Diffusion系列(开源,生态最丰富)
  • Flux(2024年发布,文字渲染能力最强)
  • DALL·E系列(OpenAI,闭源)
  • Midjourney(闭源,艺术质量最高)
  • Sora(OpenAI,视频扩散模型)