请选择 进入手机版 | 继续访问电脑版

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 318|回复: 0

开源的Stable Diffusion简介

[复制链接]

5

主题

0

回帖

40

积分

管理员

积分
40
发表于 2023-9-18 10:47:46 | 显示全部楼层 |阅读模式
一、开源的Stable Diffusion:
目前AI绘画最火的当属Midjorney和Stable Diffusion,但是由于Midjourney没有开源,因此我们主要分享下Stable Diffusion,后面我们会补充介绍下Midjourney。
二:Stable Diffusion文字生成图片过程
Stable Diffusion其实是Diffusion的改进版本,主要是为了解决Diffusion的速度问题。那么Stable Diffusion是如何根据文字得出图片的呢?下图是Stable Diffusion生成图片的具体过程:

可以看到,对于输入的文字(图中的“An astronout riding a horse”)会经过一个CLIP模型转化为text embedding,然后和初始图像(初始化使用随机高斯噪声Gaussian Noise)一起输入去噪模块(也就是图中Text conditioned latent U-Net),最后输出 512×512 大小的图片。
三、Stable Diffusion的图像压缩:
Stable Diffusion原来的名字叫“Latent Diffusion Model”(LDM),很明显就是扩散过程发生隐空间中(latent space),其实就是对图片做了压缩,这也是Stable Diffusion比Diffusion速度快的原因。
Stable Diffusion会先训练一个自编码器,来学习将图像压缩成低维表示。通过训练好的编码器
E,可以将原始大小的图像压缩成低维的latent data(图像压缩)通过训练好的解码器
D,可以将latent data还原为原始大小的图像在将图像压缩成latent data后,便可以在latent space中完成扩散过程。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|Archiver|手机版|小黑屋|10.gs Ai分享社区

GMT+8, 2024-2-21 16:44 , Processed in 0.059357 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表