一、开源的Stable Diffusion: 目前AI绘画最火的当属Midjorney和Stable Diffusion,但是由于Midjourney没有开源,因此我们主要分享下Stable Diffusion,后面我们会补充介绍下Midjourney。 二:Stable Diffusion文字生成图片过程Stable Diffusion其实是Diffusion的改进版本,主要是为了解决Diffusion的速度问题。那么Stable Diffusion是如何根据文字得出图片的呢?下图是Stable Diffusion生成图片的具体过程:

可以看到,对于输入的文字(图中的“An astronout riding a horse”)会经过一个CLIP模型转化为text embedding,然后和初始图像(初始化使用随机高斯噪声Gaussian Noise)一起输入去噪模块(也就是图中Text conditioned latent U-Net),最后输出 512×512 大小的图片。 三、Stable Diffusion的图像压缩:Stable Diffusion原来的名字叫“Latent Diffusion Model”(LDM),很明显就是扩散过程发生隐空间中(latent space),其实就是对图片做了压缩,这也是Stable Diffusion比Diffusion速度快的原因。
 Stable Diffusion会先训练一个自编码器,来学习将图像压缩成低维表示。通过训练好的编码器
E,可以将原始大小的图像压缩成低维的latent data(图像压缩)通过训练好的解码器
D,可以将latent data还原为原始大小的图像在将图像压缩成latent data后,便可以在latent space中完成扩散过程。
|