介绍Text2Image文生图的方法:DALL·E,Stable Diffusion,Midjouney,Imagen,Parti,MUSE等等。将简略地从技术角度聊聊他们的发展脉络,介绍它们之间的么联系、差异。
初稿: 2023/02/17
Text2Image文生图技术的发展和流派大致可以总结为下图。我们主要关注:
理解了下面这张图,基本也就理解了这些耳熟能详方法的技术发展。
(原图下载链接:https://xinntao.github.io/images/Text2ImageModels.png)
注:
Text2Image文生图目前主要有两大技术路线:AutoRegressive自回归和Diffusion扩散模型。在目前这个阶段,Diffusion依靠其高质量的生成受到更多关注,目前更火。但不排除,后面的发展AutoRegressive仍有新的机会,特别是Parti和MUSE的发展。可能会存在和NLP自然语言处理领域中类似的现象,即GPT系列(GPT1-3到chatGPT)的发展表现出,这类结构在扩大模型后,逐渐“浮现”(emerging)出来新的exciting的性质。
下面的内容是单纯的图像生成技术,还没有涉及到文本控制的生成,即还没有以文本作为条件。