Stable Diffusion是一种基于扩散模型的数据合成模型,主要用于生成高质量图像,也可用于图像修复、风格转换等任务。其核心思想是在潜在空间中对图像数据进行扩散和去噪操作,具体如下:
- 模型架构:由变分自编码器(VAE)、扩散模型和条件化U-Net组成。VAE用于将图像压缩到低维潜在空间,扩散模型在潜在空间执行加噪和去噪过程,条件化U-Net结合交叉注意力机制,通过文本、图像等条件引导生成。
- 工作原理:训练时,先通过VAE将真实图像编码到潜在空间,再在潜在空间中对图像逐步加噪,然后训练扩散模型学习如何逐步去噪以恢复图像。生成时,从纯噪声开始,在潜在空间中通过扩散模型逐步去噪,最后由VAE解码器将去噪后的潜在变量还原为图像。
- 关键技术:引入交叉注意力机制,使模型能够处理文本、边界框等多种条件输入,增强了生成图像的多样性和可控性。同时,通过在潜在空间操作,降低了计算复杂度,提高了训练和推理效率。