🎨

文生图 (Text-to-Image)

Text-to-Image Generation
基础概念
AI绘画生成模型

文生图(Text-to-Image)是AI根据自然语言描述生成对应图像的技术,是生成式AI最直观、最受欢迎的应用之一。

技术演进

  • 早期:GAN(生成对抗网络)主导,图像质量有限
  • 2022年:扩散模型(Diffusion Model)崛起,Stable Diffusion、DALL·E 2、Midjourney相继发布
  • 2024-2026年:Flux、DALL·E 4、Midjourney V7等新一代模型,支持超高分辨率、精确文字渲染、多图一致性

核心能力

  • 风格控制:可指定写实、插画、3D渲染、水彩等任意风格
  • 精确构图:通过提示词工程实现对画面元素、位置、光线的精细控制
  • 局部编辑:Inpainting(局部重绘)、Outpainting(扩展画面)
  • 参考图引导:上传参考图片来约束生成结果

代表工具

Midjourney(云端SaaS,社区驱动)、DALL·E(OpenAI出品,集成ChatGPT)、Stable Diffusion(开源,可本地部署)、Flux(开源新秀,文字渲染最强)、Seedream(字节出品)、即梦(字节出品,国产)。