ComfyUI显存评测报告 - AI技术

ComfyUI显存评测报告
一测试环境与评测方法

评测对象为ComfyUI在典型 Stable Diffusion 工作流下的显存占用与波动，覆盖SD1.5与SDXL两类模型，分辨率从512×512到1024×1024，采样器为DPM++ 2M、步数20 steps，精度以FP16为主。对比基线为常见 WebUI 的“常驻内存”策略，重点观察“按需加载/自动清理”对峰值显存的影响。测试平台包含RTX 3060 12GB等主流显卡，并记录峰值显存、阶段增量与CPU/RAM侧压力，以反映真实创作场景。

二显存占用基线

组件级显存（FP16，近似值，供容量规划）：
UNet：SD1.5 约1.7 GB；SDXL 约4.5–5.5 GB
CLIP：约0.3–0.6 GB
VAE Decoder：约0.2–0.4 GB
中间缓存（K采样）：约1.0–2.5 GB（与分辨率、步数正相关）
端到端峰值（典型场景）：
SD1.5 512×512：ComfyUI 峰值约5.1 GB；同类 WebUI 约6.8 GB，ComfyUI 节省约1.7 GB
SDXL 1024×1024：常见配置需≥12 GB显存才能较为流畅（含中间状态与缓存）
机制要点：ComfyUI采用惰性加载与阶段清理，相较“常驻内存”策略，峰值显存更低、曲线呈“脉冲式波动”。

三不同显卡与显存档位表现

四复杂工作流与多模块叠加的显存预算

同时驻留的典型叠加估算（FP16，不含全部运行时开销）：
SDXL Base：约5.0 GB
Refiner：约4.8 GB
ControlNet ×2：约3.0 GB
IP-Adapter：约1.0 GB
LoRA ×2：约0.4 GB
CLIP ×2：约1.0 GB
VAE：约0.3 GB
理论合计接近15.5 GB，考虑运行时碎片与临时缓存，实际需求常>16 GB
优化策略（以时间换显存）：分阶段执行与主动卸载（如生成后清理模型）、必要时启用CPU卸载/分片，可将上述流程压缩至≈10 GB级别，显著降低 OOM 概率。

五显存优化与排障建议

启动与运行参数
低显存优先：启动参数加入--lowvram；显存较紧时避免多模型同时常驻
缓存策略：固定模板批量任务可“锁定”常用模型以减少重复 I/O；内存吃紧时关闭自动缓存
工作流工程化
分阶段编排：先Base出草图→卸载→再Refiner精修；在末尾插入“卸载模型”节点，生成后主动清理
控制中间张量：减少不必要中间节点与冗余转换，降低调度与内存压力
模型与精度
优先FP16/BF16半精度；个别插件/LoRA 对半精度适配不佳时，切换--highvram/--normalvram或回退精度
解码与分辨率
高分辨率输出启用VAE Tiling（分块解码），牺牲少量速度换取稳定性
资源与系统
使用NVMe SSD显著缩短模型加载时间；长时间运行关注RAM与CPU侧压力，必要时定期重启服务或触发垃圾回收
新模型与大上下文
对于FLUX.1-dev等双文本编码器或超大上下文模型，优先采用交替加载/CPU卸载与分块解码的组合策略，以降低峰值显存与避免解码阶段 OOM。