Stable Diffusion 显卡优化实操指南
一 基础环境与驱动
nvidia-smi 与 torch.cuda.is_available() 自检。pip install xformers --index-url https://download.pytorch.org/whl/cu118),显著提升注意力计算效率并降低显存占用。import torch; print(torch.version.cuda); print(cudnn.version()) 确认环境就绪。二 按显卡与场景的优化组合
| 场景 | 关键动作 | 预期收益 |
|---|---|---|
| 8–12GB 显存(SD 1.5 / SDXL) | 启用 xFormers;WebUI 加 --medvram/--lowvram;必要时用 --no-half-vae;VAE 切片/轻量 VAE(如 TAESD);精简插件与关闭 Hires.fix | 稳定出图、降低 OOM、解码更快 |
| RTX 30 系 + SD 3.5 Large | 使用 FP8 量化(权重约减半);T5-XXL 用 8-bit 或 CPU Offload;必要时启用模型/顺序 CPU Offload | 将峰值显存从约 19GB 降至 ~11GB,12GB 卡可跑 |
| RTX 40/50 系 + SD 3.5 Large | 开启 FP8 原生计算;配合 TensorRT 优化 | 推理速度可达标准 PyTorch 的约 2.3× |
| 高端卡跑不满(16–24GB) | 提高分辨率/步数、并行多模型前先评估显存;必要时用 CPU Offload 做负载整形 | 提升 GPU 利用率与吞吐 |
说明:SD 3.5 Large 在 FP16/BF16 下需约 18–19GB 显存;FP8 权重显存约降至 ~11GB;T5-XXL 在 FP16 下约 10.5–11GB,8-bit 约 5.2GB,或改为 CPU 编码以释放 VRAM。RTX 40/50 对 FP8 计算有原生加速,配合 TensorRT 可进一步提速。
三 参数与采样设置
--no-half-vae 规避溢出。四 系统与稳定性优化
五 进阶加速与部署路线
torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True),常见可获得 20%–30% 速度提升。