显卡决定 Stable Diffusion 的速度、分辨率上限与稳定性。更强的 GPU 能在相同时间内生成更多图像,支持更高分辨率与更大批量,同时降低卡顿与 OOM(显存不足)的概率。
关键硬件维度与影响
- GPU 架构与算力:NVIDIA 的 CUDA + Tensor Cores 在主流 PyTorch/扩散实现上优化更成熟;同级别下,NVIDIA 通常快于 AMD,AMD 又普遍快于 Intel 集显。内存带宽也极为关键,带宽越高,高分辨率与高批量时越不易掉速。显存容量直接决定可运行的分辨率、批量与模型复杂度。系统层面,快速 CPU 与充足 RAM(建议 ≥16GB) 能减少数据供给瓶颈,提升整体稳定性。
- 显存 VRAM:决定了“能做什么”。在 512×512 下,8GB 可运行,但更稳妥的是 12GB+;在 768×768 及以上,12GB 成为更实际的起点,24GB 能兼顾高分辨率、较大批量与更复杂管线(如多 ControlNet、Inpaint、SDXL)。显存不足会触发频繁换页或降级精度,显著变慢甚至失败。
- 生态与驱动:Windows 上 NVIDIA + CUDA/xformers 体验最顺滑;AMD 在 Windows 常依赖 DirectML,在 Linux 可用 ROCm 获得更好性能;Intel 集显可用 DirectML 体验入门级生成。跨平台与跨框架的优化差异,会直接体现在出图速度与稳定性上。
参数设置如何与显卡交互
- 分辨率:对性能影响最大。以 512×512 为通用基准;升到 768×768 时,VRAM 与带宽压力显著上升,部分 8GB 显卡甚至无法完成单张生成。更高分辨率(如 1024×1024)建议 16–24GB 显存。
- 采样步数与采样器:步数增加会线性增加耗时(如从 20–50 步提升到 ~200 步),但“每秒迭代速度(it/s)”基本不变;采样器之间存在显著时差,Euler/Euler a 通常最快,DPM2 等可能接近其 2 倍耗时。
- 精度与加速:优先使用 FP16(或 BF16,取决于显卡支持)以兼顾速度与显存;启用 xformers 常能带来明显提速;在 SDXL 等新模型上,BF16 训练/推理更友好,旧卡可能受限。
性能差异的量化示例
- 在大量消费级 GPU 的对比中,RTX 4090 在 512×512 场景下可达每分钟 >75 张,而 RX 7900 XTX 约为其 1/3(~26 张/分钟),Arc A770 16GB 约 15.4 张/分钟。升到 768×768 后差距进一步拉大,4090 较 A770 16GB 快约 6.4 倍。
- 多卡数据中心级对比(特定配置):NVIDIA H100 80GB 约 595 张/秒,A100 80GB 约 381 张/秒;在 SDXL 30 steps、1024×1024 上,A100 约 3.6 秒/张,经 TensorRT 优化至约 2.7 秒/张。
- 入门级单卡示例:RTX 3060 生成 512×512 约 6.6 秒/张(具体取决于参数与优化)。
选购与使用建议
- 显存优先:目标 768×768 与多 ControlNet/Inpaint,建议 12–16GB;追求 1024×1024、更大批量或复杂工作流,建议 24GB。若预算有限,12GB 是更稳妥的“上限”起点。
- 品牌与生态:追求开箱即用与稳定加速,优先 NVIDIA RTX(CUDA/xformers 生态成熟);AMD 用户建议在 Linux + ROCm 下获得更好性能;Intel 集显 仅适合入门体验或 CPU 方案。
- 优化要点:启用 xformers、使用 FP16/BF16、合理控制 分辨率/步数/批量,必要时降低分辨率或步数换取速度;系统层面保证 ≥16GB RAM 与较快 CPU,减少数据瓶颈。