🎨

文生图 (Text-to-Image)

Text-to-Image Generation

基础概念

AI绘画生成模型

文生图（Text-to-Image）是AI根据自然语言描述生成对应图像的技术，是生成式AI最直观、最受欢迎的应用之一。

技术演进

早期：GAN（生成对抗网络）主导，图像质量有限
2022年：扩散模型（Diffusion Model）崛起，Stable Diffusion、DALL·E 2、Midjourney相继发布
2024-2026年：Flux、DALL·E 4、Midjourney V7等新一代模型，支持超高分辨率、精确文字渲染、多图一致性

核心能力

风格控制：可指定写实、插画、3D渲染、水彩等任意风格
精确构图：通过提示词工程实现对画面元素、位置、光线的精细控制
局部编辑：Inpainting（局部重绘）、Outpainting（扩展画面）
参考图引导：上传参考图片来约束生成结果

代表工具

Midjourney（云端SaaS，社区驱动）、DALL·E（OpenAI出品，集成ChatGPT）、Stable Diffusion（开源，可本地部署）、Flux（开源新秀，文字渲染最强）、Seedream（字节出品）、即梦（字节出品，国产）。