介绍Text2Image文生图的方法:DALL·E,Stable Diffusion,Midjouney,Imagen,Parti,MUSE等等。将简略地从技术角度聊聊他们的发展脉络,介绍它们之间的么联系、差异。

初稿: 2023/02/17

Text2Image文生图技术的发展和流派大致可以总结为下图。我们主要关注:

理解了下面这张图,基本也就理解了这些耳熟能详方法的技术发展。

Text2ImageModels.png

(原图下载链接:https://xinntao.github.io/images/Text2ImageModels.png

注:

  1. 本文旨在从宏观角度理出技术发展的脉络,不涉及方法的具体技术细节。具体的技术细节请参考其他解读文章或者论文。
  2. 为了尽可能简化技术发展脉络,本文仅关注了部分代表性工作。其他还有优秀的相关工作没有囊括。
  3. 欢迎大家指正讨论,一起改进。

1. 两大主要路线:AutoRegressive (AR)与Diffusion

Text2Image文生图目前主要有两大技术路线:AutoRegressive自回归Diffusion扩散模型。在目前这个阶段,Diffusion依靠其高质量的生成受到更多关注,目前更火。但不排除,后面的发展AutoRegressive仍有新的机会,特别是Parti和MUSE的发展。可能会存在和NLP自然语言处理领域中类似的现象,即GPT系列(GPT1-3到chatGPT)的发展表现出,这类结构在扩大模型后,逐渐“浮现”(emerging)出来新的exciting的性质。

下面的内容是单纯的图像生成技术,还没有涉及到文本控制的生成,即还没有以文本作为条件。

AutoRegressive是什么?