总体表现
在图像生成质量、速度与可控性上,Stable Diffusion已形成成熟体系:在512×512分辨率下,主流消费级 NVIDIA RTX 3060 使用 DPM 采样器约 2.1 秒/张(20 步),而 A100 可达 0.7 秒/张(10 步);在 1024×1024 分辨率下,优化后的 RTX 3060 约 5.7 秒/张(20 步)。质量评估方面,常用 FID(越低越好)、IS(越高越好)与 CLIP 评分(越高表示与提示词越一致)进行客观量化;采样器方面,DPM-Solver 通常能在较少步数下取得较好质量与速度平衡,DDIM 适合可复现结果,PLMS 在少步数下也较稳定。
速度与硬件表现
- 典型速度对比(默认参数,步数见左列;单位:秒/张,512×512)
- A100:DDIM 50 步 2.3s、PLMS 20 步 1.1s、DPM 10 步 0.7s
- RTX 3060:DDIM 50 步 8.7s、PLMS 20 步 3.5s、DPM 10 步 2.1s
- CPU(i7-12700K + IPEX + bfloat16):DDIM 50 步 45.2s、PLMS 20 步 18.3s、DPM 10 步 11.5s
- 显存与分辨率
- 显存占用随分辨率近似按公式:内存占用(GB) ≈ (宽×高×通道数×4 字节)/1024^3 × 1.5;例如 1024×1024 在 RTX 3060 上约 8.3GB,建议预留 ≥2GB 余量。
- 其他设备参考
- RTX 4090 相比 RTX 3090 推理时间约快一半;A100 + TensorRT 在 SDXL 30 steps、1024×1024 场景下约 2.7s/张;M 系列 Mac 经 stable-diffusion.cpp 优化后,1024×1024 速度提升可超 4.6×(fp32),M1 Pro 上 512×512 约 1.84×。
质量与评估指标
- FID(Fréchet Inception Distance):衡量生成图像与真实图像特征分布的距离,数值越低表示整体质量与分布一致性越好。
- IS(Inception Score):综合考量清晰度与类别多样性,数值越高越好。
- CLIP 评分:基于 CLIP 的图文对齐相似度,数值越高表示与文本提示的一致性越强。
- 实践建议:结合客观指标与主观检查(如细节丰富度、色彩协调、构图合理性)进行综合评估。
采样器选择与步数建议
- DPM-Solver:基于微分方程求解,收敛快、步数少也能取得较好质量,适合速度与质量平衡场景。
- DDIM:确定性采样,步数充足时细节稳定,适合需要结果可复现的任务。
- PLMS:多步预测改进,少步数下质量较稳,适合低步数快速预览。
- 步数与质量的经验值:多数场景 20–30 步 已足够;若追求极致细节可提升到 40–50 步。在 RTX 3060 上,从 50 步 DDIM 优化为 20 步 DPM + xFormers,可将 1024×1024 生成时间由约 22.4s 降至约 5.7s。
实用优化建议
- GPU 端:优先启用 xFormers 高效注意力;选择 DPM/DPM-Solver 并将步数设为 20–30;分辨率超过 1024 时结合梯度检查点以节省显存。
- CPU 端:使用 Intel Extension for PyTorch 与 bfloat16(如 --ipex --bfloat16),可显著缩短生成时间。
- 通用:批量生成通常比逐张生成更省时;在 WebUI/Forge 中可一键启用 xFormers 与内存优化参数(如 --medvram)以兼顾速度与稳定性。