文生图(Text-to-Image)是AI根据自然语言描述生成对应图像的技术,是生成式AI最直观、最受欢迎的应用之一。
技术演进
- 早期:GAN(生成对抗网络)主导,图像质量有限
- 2022年:扩散模型(Diffusion Model)崛起,Stable Diffusion、DALL·E 2、Midjourney相继发布
- 2024-2026年:Flux、DALL·E 4、Midjourney V7等新一代模型,支持超高分辨率、精确文字渲染、多图一致性
核心能力
- 风格控制:可指定写实、插画、3D渲染、水彩等任意风格
- 精确构图:通过提示词工程实现对画面元素、位置、光线的精细控制
- 局部编辑:Inpainting(局部重绘)、Outpainting(扩展画面)
- 参考图引导:上传参考图片来约束生成结果
代表工具
Midjourney(云端SaaS,社区驱动)、DALL·E(OpenAI出品,集成ChatGPT)、Stable Diffusion(开源,可本地部署)、Flux(开源新秀,文字渲染最强)、Seedream(字节出品)、即梦(字节出品,国产)。