conda create -n sd35 python=3.10
),避免依赖冲突;安装兼容版本的PyTorch(如torch==2.1.0+cu118
)、Diffusers等库,确保框架与显卡驱动匹配。--xformers
(启用高效注意力机制)或--xformers --no-half-vae
(避免VAE半精度导致的黑图);--medvram
(分层加载模型)或--medvram --no-half-vae
;--lowvram
(极致压缩显存)或--lowvram --opt-split-attention
(拆分注意力模块)。bitsandbytes
库),将模型参数压缩至原大小的1/4-1/8,推理速度提升30%且精度损失可控(适合写实、动漫等风格)。thresholding: percentile=99.5
,抑制生成噪点(尤其适合写实风格人物、风景图),减少后期修复工作。accelerate
库实现多GPU负载均衡,将UNet、Text Encoder等模型组件拆分到不同GPU(如RTX 4090×2),提升批量生成吞吐量(如batch_size=4时,吞吐量接近线性增长)。DistributedDataParallel
模块同步模型参数,缩短整体生成时间。