Stable Diffusion服务器配置要求与选型建议
一 最低与推荐配置
- 下表按使用场景给出服务器硬件与系统的最低与推荐配置,便于快速选型。
| 场景 | GPU与显存 | CPU | 内存 | 存储与带宽 | 操作系统与驱动 |
|---|
| 入门/演示(WebUI) | NVIDIA T4 8GB 或同级 | ≥4核 | ≥16GB | ≥100GB SSD(系统盘)+ 模型缓存盘;公网带宽 ≥10M | Ubuntu 22.04 LTS;NVIDIA 驱动 535;CUDA 12.x |
| 生产/SD3 单卡 | NVIDIA A10 24GB 或 V100 32GB | ≥8核 | ≥64GB | ≥100GB SSD;公网带宽 ≥10M | Ubuntu 20.04+ 或 Windows Server;CUDA 环境 |
| 多模型并行/微调 | NVIDIA A100 40GB | ≥8核 | ≥32GB | 系统盘 100GB + 数据盘 500GB(模型/缓存) | Ubuntu 22.04 LTS;CUDA 12.x |
- 说明:入门级 WebUI 也可用 4GB 显存显卡跑通基础功能,但稳定性与分辨率受限;面向 Stable Diffusion 3 的生产部署,建议 A10 单卡起步,并准备充足的磁盘空间以容纳不同规模的模型文件与编码器。
二 模型与存储需求
- Stable Diffusion 3 官方提供多种打包模型,体积与是否包含文本编码器相关,选型直接影响显存与磁盘占用:
- sd3_medium.safetensors:4.3GB(仅主模型,不含文本编码器)
- sd3_medium_incl_clips.safetensors:5.97GB(含 CLIP 编码器)
- sd3_medium_incl_clips_t5xxlfp16.safetensors:10.9GB(含 T5‑XXL FP16)
- sd3_medium_incl_clips_t5xxlfp8.safetensors:15.8GB(含 T5‑XXL FP8)
- 建议做法:根据显卡显存与生成质量需求选择是否携带 T5‑XXL 编码器;显存紧张时优先使用不含 T5 的包或降低分辨率/批量大小。
三 软件环境与部署要点
- 操作系统与驱动:推荐 Ubuntu 22.04 LTS;安装 NVIDIA 驱动 535 与 CUDA 12.x(或平台提供的 CUDA 仓库)。
- WebUI 部署方式:
- Docker 快速部署(示例):
docker pull ghcr.io/automatic1230/sd-webui:latest
docker run -d --gpus all -p 7860:7860 -v ~/sd-models:/models -v ~/sd-outputs:/outputs ghcr.io/automatic1230/sd-webui
- 手动安装要点:创建 Python 3.10 虚拟环境,安装 PyTorch(cu121),克隆 AUTOMATIC1111/stable-diffusion-webui 后执行:
./webui.sh --xformers --opt-sdp-no-mem-attention
- 端口与访问:默认 WebUI 端口 7860;若使用一键脚本或容器方案,可能使用 8860,需在安全组放行对应端口。
四 性能优化与扩展建议
- 显存与速度优化:
- 启用 xformers 注意力机制,常见可降显存占用约30%;中显存设备可加 --medvram 参数。
- 使用 FP16 混合精度(PyTorch AMP),显存占用约减半、吞吐可提升至3–4倍(视模型与硬件而定)。
- 资源与并发:
- 批量生成/多模型并行建议 A100 40GB 等更高规格;常规生产 A10 24GB 可覆盖多数单卡场景。
- 存储建议系统盘 100GB 起,另配 500GB 高性能数据盘用于模型与缓存,避免 IO 成为瓶颈。